Прорыв ИИ — это заблуждение: ученые считают, что люди обманывают сами себя
Группа американских ученых бросила вызов расхожему представлению о технологическом прорыве, связанном с развитием ИИ-моделей. Исследователи утверждают, что скачок возможностей искусственного интеллекта — это заблуждение его создателей.
Новое исследование ученых Стэнфордского университета озадачило исследователей больших языковых моделей (LLM). Внимание ученых привлекли так называемые внезапные «скачки способностей», которые возникают у LLM по мере увеличения их размера и сложности. Скачки производительности разожгли споры о непредсказуемости и потенциале ИИ. Исследователи Стэнфорда пришли к выводу, что на самом деле эти явления не такие спонтанные и непредсказуемые, как считается. Все зависит от того, как их интерпретировать.
Ученые выдвинули гипотезу, что эмерджентные способности искусственного интеллекта — это заблуждение работающих с ним исследователей. В тестировании Beyond the Imitation Game benchmark (BIG-bench) приняли участие более 450 исследователей, которые составили 204 задания для изучения возможностей LLM.
Эмерджентные способности ИИ вызывают споры как среди ученых, так и среди разработчиков. Со стороны это выглядит необъяснимо: например, GPT-4 может внезапно выдавать информацию, на знание которой она не была запрограммирована. Модель способна переводить текст с языка, хотя не была этому обучена. Исследователи Microsoft даже заявляли, что GPT-4 показывает «искры общего искусственного интеллекта» и способна «решать новые и сложные задачи без каких-либо специальных подсказок».
Тест показал, что производительность LLM во многих задачах предсказуемо улучшалась с увеличение размера модели. Однако в некоторых задачах наблюдались неожиданные скачки производительности. Эти результаты побудили исследователей описать определенные способности LLM, сравнив их с фазовым переходом в физике, когда вещество переходит из одной термодинамической фазы в другую при изменении внешних условий. Проще говоря, когда вода превращается в лед.
Споры вокруг природы таких скачков — это этический вопрос, который затрагивает безопасность ИИ-моделей. Непредсказуемость эмерджентных способностей искусственного интеллекта предполагает, что LLM могут развивать способности, которые выходят за рамки нашего текущего понимания или контроля ИИ. Если не объяснить природу скачков, то от искусственного интеллекта можно ожидать чего угодно в любой момент.
Стэнфордские ученые утверждают: то, что воспринималось как необъяснимые скачки производительности, на самом деле — отражение того, как способности ИИ измеряются. Исследователи предполагают, что показатели, которые используются для оценки эффективности LLM, могут не отражать постепенные улучшения, которые происходят по мере масштабирования моделей. Предложенные показатели могут распознавать производительность только после того, как она превысит определенные порог. Именно это создает иллюзию внезапного скачка.
Например, в таких задачах, как сложение трехзначных чисел, предыдущие исследования сообщали, что GPT-3 или LAMDA терпели неудачу при меньшем количестве параметров, но резко преуспевали при большем. Американские исследователи предполагают, что скачка не будет, если использовать другой способ измерения. Нужно присуждать частичную оценку за приблизительно правильные ответы, а не точное совпадение. Тогда повышение производительности будет выглядеть постепенным, а не внезапным. Если заменить бинарную оценку «правильно/неправильно» на систему с градацией правильности — никаких внезапных скачков не возникнет.
Исследователи не отрицают, что LLM значительно улучшают результаты работы с увеличением масштаба. Их эксперимент скорее вносит нюансы в наше понимание того, как происходит это улучшение. Несмотря на убедительные доказательства, дискуссия об эмерджентных способностях пока далека от завершения. Некоторые ученые возражают, что более детализированная градация оценки производительности ИИ применима к любым областям, тем более к арифметике, где важны точные результаты. Другие исследователи настаивают, что скачки наблюдаются даже в случае, если использовать усовершенствованный метод оценки ИИ.
Научный спор подчеркивает сложной интерпретации возможностей LLM. Какова бы ни была реальная природа скачков производительности ИИ, человек вынужден использовать привычные методы для оценки его работы, что приводит к неизбежному разрыву в точности прогнозирования. Разработка метрик для оценки возможностей искусственного интеллекта — это проблема безопасности технологии, которая нуждается в контроле.
Читать на dev.by