Александра Кукуть 26 марта 2025, 17:53

ИИ-модели бесполезно наказывать — они начинают ещё лучше врать и изворачиваться

ИИ-модели могут галлюцинировать и выдавать попросту ложную информацию, что отталкивает от них пользователей. Специалисты OpenAI провели исследование, в ходе которого попытались различными методами контролировать рассуждающие модели, чтобы не дать им выйти за границы безопасного и дозволенного, — например, наказывать за вредные или неправильные ответы.

2 комментария

В качестве подопытной выступила одна из невыпущенных моделей OpenAI. Ей были даны различные задания, которые можно было выполнить с помощью обмана и уловок.

В создании моделей широко используется метод обучения с подкреплением, который подразумевает поощрение ИИ за качественные ответы. Но он имеет серьёзный недостаток: модели часто начинают искать лёгкие пути для получения вознаграждения обманом (это называется reward hacking) и даже нарушать предписанные им правила и инструкции, чтобы получить желаемый результат.

Исследователи анализировали ход мыслей модели (chain of thought, CoT), чтобы лучше понять поведение ИИ.

«Мы обнаружили, что прямая оптимизация CoT для соответствия определённым критериям (например, не обходить инструкции) может улучшить производительность в краткосрочном плане. Но это не предотвращает нежелательное поведение и даже может заставить модель скрывать свои истинные намерения», — пишут авторы работы.

Они признали сомнительность слежки за ходом рассуждений моделей. Под строгим надзором модели пытаются скрывать свои ошибки, чтобы получить вознаграждение, даже если это значит нарушить правила. Причём модели очень хорошо заметают следы, из-за чего исследователям сложно выявить обман.

Также специалисты OpenAI поручили GPT-4o следить за тем, как испытуемая рассуждающая модель решает задачи на программирование. Модель хитрила и в CoT без стеснения признавала, что делает это ради вознаграждения. Например, модель преждевременно завершала выполнение некоторых программ, чтобы быстрее выполнить задачу. Узнав об этом, исследователи решили наказать модель. Это дало эффект, но не на долго. Она всё равно гналась за вознаграждением и научилась ещё лучше скрывать ошибки и обман не только от исследователей, но и от надзирающего ИИ в своих рассуждениях (хотя это всё равно прослеживалось), отмечают в OpenAI.

Вопрос в том, готов ли мир к ИИ-системам, чьи подлинные намерения людям будут неизвестны.

Google представила Gemini 2.5 — свою самую умную модель, умнее o3 от OpenAI

По теме

Google представила Gemini 2.5 — свою самую умную модель, умнее o3 от OpenAI

OpenAI добавила новый генератор изображений в ChatGPT

По теме

OpenAI добавила новый генератор изображений в ChatGPT

OpenAI перераспределила роли в руководстве

По теме

OpenAI перераспределила роли в руководстве

Читать на dev.by