Почему ИИ так часто ошибается? Похоже, ученые нашли ответ
Крупные ИИ-модели, несмотря на их теоретическую способность принимать правильные решения, на практике часто демонстрируют слабые результаты. Ученые попытались выяснить, почему это происходит.
Крупные ИИ-модели, несмотря на их теоретическую способность принимать правильные решения, на практике часто демонстрируют слабые результаты. Ученые попытались выяснить, почему это происходит.
Недавнее исследование, опубликованное в виде препринта учеными из Линцского университета и Google DeepMind, раскрывает причины, по которым ИИ-модели испытывают трудности с принятием решений. В качестве примера исследователи взяли игру в крестики-нолики и задачу с многоруким бандитом (multi-armed bandit problem) —задачу об оптимальном распределении ресурсов в условиях неопределенности. В ходе экспериментов с текстовыми версиями этих задач ученые обнаружили, что модели часто делают неверный выбор, даже обладая необходимой информацией для правильного решения.
Исследование включало 50-шаговые тесты принятия решений с различными настройками, включая задачи с пятью, десятью или двадцатью возможными действиями и разными уровнями случайности. Ученые выявили три основные проблемы, мешающие моделям: склонность к выбору первых удачных действий без исследования других вариантов, предпочтение действий, которые чаще встречались ранее, даже если они не приносили успеха, и разрыв между тем, что модель знает, и тем, что она делает.
Исследование было сосредоточено на семействе моделей Google Gemma 2 в трех размерах: 2, 9 и 27 млрд параметров. Модели часто зацикливались на ранних действиях, которые кажутся перспективными, игнорируя другие возможности. В тестах с десятью возможными действиями даже самые крупные модели исследовали лишь около двух третей вариантов, а без использования цепочки рассуждений этот показатель падал еще ниже. Меньшие модели, такие как Gemma 2-2B, часто выбирали действия, которые встречались чаще, даже если они не были эффективными.
Эта ошибка, известная как частотное смещение, проявлялась в 96% случаев для модели с 2 миллиардами параметров, когда действие повторялось несколько раз. Более крупные модели реже допускали эту ошибку, но были более склонны к стереотипному поведению, выбирая только знакомые действия.
Одной из ключевых проблем стал разрыв между знанием и действием. Этот разрыв знаком всем, кто работал с языковыми моделями: модель может объяснить свою ошибку, но затем повторить ее. Для решения этой проблемы исследователи применили тонкую настройку с подкреплением, обучая модели создавать собственные объяснения и учиться на них. После 30 тысяч шагов обучения производительность улучшилась: самая маленькая модель исследовала на 12% больше действий и сократила количество ошибок. В игре в крестики-нолики ее процент побед против случайного противника вырос с 15% до 75%, а против более сильного ИИ-оппонента модель смогла добиться ничьей при наличии контекстной информации о допустимых действиях.
Исследование показало, что без оптимизации самая маленькая модель исследовала лишь 40% доступных вариантов в задаче с десятью действиями, в то время как более крупные модели покрывали около 65%. Без цепочки рассуждений этот показатель падал до 25%. При увеличении числа действий до 20 даже самые крупные модели исследовали лишь 45%, причем исследование новых вариантов обычно прекращалось после десяти шагов.
Тренировка помогла улучшить ситуацию, но модели все равно избегали незнакомых действий. Для повышения уровня исследования ученые протестировали несколько методов, включая добавление случайности на ранних этапах, вознаграждение за новые действия и стратегии самокоррекции. Наиболее эффективным оказался простой подход, при котором модель обязана попробовать каждое действие хотя бы раз в начале, что приблизило результаты к оптимальным. Присвоение бонусного балла за каждое новое действие также увеличило охват действий с 50% до 70%.
Эксперимент также показал важность цепочки рассуждений. Без нее даже дополнительное обучение давало минимальный эффект. Еще одним ключевым фактором стало время на размышление, измеряемое количеством токенов, которые модель могла использовать для принятия решения. Большее количество токенов улучшало результаты, но увеличивало вычислительные затраты. Этот подход, сочетающий обучение с цепочкой рассуждений и увеличенный бюджет токенов, лежит в основе прогресса современных моделей в таких областях, как программирование и математика.
10+ сертификаций Coursera, которые могут изменить вашу карьеру
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
изначально дефектный ИИ + брутфорс вариантов
не очень понял, к какому «глобальному» результату приводит новость. можете поделиться мнением?
но ведь ученые похоже могли найти и ошибочный ответ?