Почему ИИ так часто ошибается? Похоже, ученые нашли ответ

Крупные ИИ-модели, несмотря на их теоретическую способность принимать правильные решения, на практике часто демонстрируют слабые результаты. Ученые попытались выяснить, почему это происходит.

3 комментария

Недавнее исследование, опубликованное в виде препринта учеными из Линцского университета и Google DeepMind, раскрывает причины, по которым ИИ-модели испытывают трудности с принятием решений. В качестве примера исследователи взяли игру в крестики-нолики и задачу с многоруким бандитом (multi-armed bandit problem) —задачу об оптимальном распределении ресурсов в условиях неопределенности. В ходе экспериментов с текстовыми версиями этих задач ученые обнаружили, что модели часто делают неверный выбор, даже обладая необходимой информацией для правильного решения.

Исследование включало 50-шаговые тесты принятия решений с различными настройками, включая задачи с пятью, десятью или двадцатью возможными действиями и разными уровнями случайности. Ученые выявили три основные проблемы, мешающие моделям: склонность к выбору первых удачных действий без исследования других вариантов, предпочтение действий, которые чаще встречались ранее, даже если они не приносили успеха, и разрыв между тем, что модель знает, и тем, что она делает.

Исследование было сосредоточено на семействе моделей Google Gemma 2 в трех размерах: 2, 9 и 27 млрд параметров. Модели часто зацикливались на ранних действиях, которые кажутся перспективными, игнорируя другие возможности. В тестах с десятью возможными действиями даже самые крупные модели исследовали лишь около двух третей вариантов, а без использования цепочки рассуждений этот показатель падал еще ниже. Меньшие модели, такие как Gemma 2-2B, часто выбирали действия, которые встречались чаще, даже если они не были эффективными.

Эта ошибка, известная как частотное смещение, проявлялась в 96% случаев для модели с 2 миллиардами параметров, когда действие повторялось несколько раз. Более крупные модели реже допускали эту ошибку, но были более склонны к стереотипному поведению, выбирая только знакомые действия.

Одной из ключевых проблем стал разрыв между знанием и действием. Этот разрыв знаком всем, кто работал с языковыми моделями: модель может объяснить свою ошибку, но затем повторить ее. Для решения этой проблемы исследователи применили тонкую настройку с подкреплением, обучая модели создавать собственные объяснения и учиться на них. После 30 тысяч шагов обучения производительность улучшилась: самая маленькая модель исследовала на 12% больше действий и сократила количество ошибок. В игре в крестики-нолики ее процент побед против случайного противника вырос с 15% до 75%, а против более сильного ИИ-оппонента модель смогла добиться ничьей при наличии контекстной информации о допустимых действиях.

Исследование показало, что без оптимизации самая маленькая модель исследовала лишь 40% доступных вариантов в задаче с десятью действиями, в то время как более крупные модели покрывали около 65%. Без цепочки рассуждений этот показатель падал до 25%. При увеличении числа действий до 20 даже самые крупные модели исследовали лишь 45%, причем исследование новых вариантов обычно прекращалось после десяти шагов.

Тренировка помогла улучшить ситуацию, но модели все равно избегали незнакомых действий. Для повышения уровня исследования ученые протестировали несколько методов, включая добавление случайности на ранних этапах, вознаграждение за новые действия и стратегии самокоррекции. Наиболее эффективным оказался простой подход, при котором модель обязана попробовать каждое действие хотя бы раз в начале, что приблизило результаты к оптимальным. Присвоение бонусного балла за каждое новое действие также увеличило охват действий с 50% до 70%.

Эксперимент также показал важность цепочки рассуждений. Без нее даже дополнительное обучение давало минимальный эффект. Еще одним ключевым фактором стало время на размышление, измеряемое количеством токенов, которые модель могла использовать для принятия решения. Большее количество токенов улучшало результаты, но увеличивало вычислительные затраты. Этот подход, сочетающий обучение с цепочкой рассуждений и увеличенный бюджет токенов, лежит в основе прогресса современных моделей в таких областях, как программирование и математика.

Microsoft представила проект NLWeb — для превращения сайтов в ИИ-приложения
По теме
Microsoft представила проект NLWeb — для превращения сайтов в ИИ-приложения
ИИ-инструмент для кодеров, ИИ-агент, генераторы картинок и видео: главные анонсы Google I/O 2025
По теме
ИИ-инструмент для кодеров, ИИ-агент, генераторы картинок и видео: главные анонсы Google I/O 2025
ИИ представляет бо́льшую угрозу для работы женщин, чем мужчин
По теме
ИИ представляет бо́льшую угрозу для работы женщин, чем мужчин

Читать на dev.by