По мнению фанатов «вечных войн», определяющих разницу между научной фантастикой и фэнтези, это «горячая картошка», которой суждено пережить тепловую смерть Вселенной.
Правильного ответа нет, и это не имеет значения, отсюда и неизменная популярность вопроса, но попытка провести такое разграничение все равно может оказаться полезной при анализе ажиотажа в IT-индустрии. Выполнимо ли это обещание технически, или сначала появятся пикси верхом на драконах? Да, АЙ, мы снова говорим о тебе.
Рассмотрим предложение о том, что ИТ-специалистам следует создать своих цифровых двойников-агентов, чтобы, гм, сократить объем обременительной работы, которую им приходится выполнять лично. В этой комнате достаточно слонов, чтобы пополнить запасы в Африке, если бы это сработало. Если ваш близнец напортачит, кто понесет банку? В чем разница между «обременительной работой» и «подработкой»? Кому достанется близнец, когда вы уйдете? Неужели никто из этих людей не смотрел «Фантазию ученика чародея»? К счастью, из этого следует другой вопрос: является ли идея научной фантастикой или фэнтези, и, как во всякой хорошей спекулятивной фантастике, в ней есть и история, и логика, которые помогут нам принять решение.
Пример программного обеспечения ручной работы в мире массового производства
ПОДРОБНЕЕ
Сначала история. Это предложение не ново, это повторение впечатляющего провала искусственного интеллекта середины 80-х: экспертных систем. Идея заключалась в том, чтобы объединить популярность Lisp, языка, предназначенного для работы с огромными списками концептуальных данных для получения правильных выводов, с обучением, полученным путем анализа того, как эксперты в предметной области выполняют свою работу. Захватывающий материал, и деньги потекли рекой. Наконец-то появился настоящий искусственный интеллект! К сожалению, настоящего искусственного интеллекта тогда еще не было, и вся эта область тихо умерла по сугубо технической причине – она просто не работала.
Дело было не столько в том, что технологии 80-х не справлялись с этой задачей — были получены многообещающие ранние результаты; Закон Мура был в силе. это была экспоненциальная пышность, и на нас обрушилась лавина денег. Кроме того, сейчас мы живем в невероятно мощном цифровом мире 2025 года и могли бы запускать Lisp со сверхсветовой скоростью, если бы захотели. Никто этого не хочет.
Проблема заключалась в том, что неясно, как люди принимают экспертные решения. Мы не основаны на массивах данных и блок-схемах, и многолетний опыт не может быть извлечен из мозгов, которые владеют им и используют. Вот почему новые выпускники, получившие более 15 лет очного обучения у опытных специалистов, не очень хорошо справляются со своей первой работой. ИИ не может этого исправить.
Даже если бы он смог преодолеть узкое место в мозге, ИИ еще далеко не настолько хорош, чтобы стать цифровым двойником любого человека, каким бы неопытным он ни был. В научно-фантастическом сценарии это вполне могло бы стать таковым со временем, по мере совершенствования машин и технологий; в фэнтези вы не сможете добиться успеха без Гэндальфа в качестве руководителя команды. Есть много признаков того, что нам скоро придется покупать остроконечные шляпы. Искусственный интеллект даже сейчас не оправдывает своих ожиданий, и попытки продвинуть его дальше не увенчались успехом.
Мы знаем это, потому что в реальных результатах использования ИИ в нашей повседневной жизни, таких как поиск, есть вещи, которые ИИ не может делать, и которые не улучшаются, возможно, даже наоборот. Крах модели ИИ из-за плохого обучения не излечивается более совершенными моделями. Вы, в частности, знаете об этом, потому что профессиональные ИТ-специалисты находятся в самом центре экспериментов с ИИ, и вы знаете, насколько хорошо и насколько плохо работает ИИ-кодирование. Находите и объединяйте конструкции и компоненты, полезные, когда они не расходятся по частям. Функциональный анализ и создание новых решений для новых проблем? Не так уж и много.
Это эмпирическое, эпизодическое подозрение о том, что не все розы в саду искусственного интеллекта хороши, подтверждается фактическим анализом. Исследователи Apple опубликовали статью [PDF], в которой рассматривается, насколько эффективны модели frontier large language models (LMM) с расширенным мышлением (large reasoning models (LRM), такие как OpenAI o1 /o3, DeepSeek–R1 и т.д.) при решении задач, поскольку они содержат задания, дифференцированные по сложности. Некоторые из них представляют собой логические тесты, например, классическую головоломку о том, как сложить Ханойскую башню из дисков, или о том, как переправить лисиц и цыплят через реку, не поймав ни жирной лисы, ни цыпленка.
В решении наименее сложных задач LLM часто превосходили LRM, в то время как LRM лучше справлялись с запросами средней сложности. Самые сложные задачи могли свести на нет все, и даже LRM сталкивались с препятствиями и выдавали в основном бесполезные результаты, а иногда и вовсе отказывались от них. Это продолжалось даже тогда, когда исследователи предоставили LRM точные алгоритмы, необходимые для решения головоломок.
Проще говоря, при достижении определенной сложности модели рушились. Как заключают исследователи, «особое беспокойство вызывает парадоксальное сокращение усилий, затрачиваемых на логические рассуждения, по мере приближения задач к критической сложности, что указывает на присущий LRMS предел масштабирования вычислений». Добавьте к этому совершенно разную производительность при решении разных задач, говорят исследователи, и предположение о том, что LRMS могут стать универсальными логическими машинами, в настоящее время не выглядит убедительным. оправданный.Конечно, это отражает современное состояние дел и подход, выбранный исследователями. Однако обратите внимание на многочисленные цитаты в статье, и эти опасения не уникальны, скорее, они являются частью последовательного и широкого набора результатов, полученных с помощью frontier AI. В частности, похоже, что саморефлексия, лежащая в основе LRMS, имеет ограничения, которые не осознаются, и что тестирование на основе задач намного лучше, чем бенчмаркинг, для определения того, насколько хорошо работает ИИ. Ни то, ни другое, естественно, не находит отражения в маркетинге ИИ. И то, и другое верно, как и то, что модель рушится из-за отравления данных, как и постоянные галлюцинации.
Это открытые вопросы, которые напрямую ставят под сомнение прогнозируемую траекторию развития ИИ как надежного инструмента, который может становиться только лучше. Это иллюзия, так же как и сам ИИ создает иллюзию мышления, и оба они таят в себе большие опасности. Антропоморфизация продается. Она также убивает.Плюсом для ИТ-индустрии является то, что в сфере искусственного интеллекта разработчики — это антропоморфизированные и странно одетые канарейки. Не во всех отраслях есть тесно интегрированные функциональные возможности и режимы тестирования качества при создании производственного кода.Наш моральный долг — сообщать о том, насколько хорошо все работает, показывать, как выявленные исследователями недостатки проявляются в реальном мире. Глобальная армия гиков лучше других знает, когда реальная жизнь превращается в косплей, а научная фантастика — в фэнтези. Как того требуют оба жанра: используйте эти способности во благо. Есть мир, который нужно спасти. ®