Читатели в 🇵🇱, пожалуйста, поддержите dev.by своими налогами! Это просто и ничего не стоит
Support us

ИИ-модели бесполезно наказывать — они начинают ещё лучше врать и изворачиваться

ИИ-модели могут галлюцинировать и выдавать попросту ложную информацию, что отталкивает от них пользователей. Специалисты OpenAI провели исследование, в ходе которого попытались различными методами контролировать рассуждающие модели, чтобы не дать им выйти за границы безопасного и дозволенного, — например, наказывать за вредные или неправильные ответы.

2 комментария
ИИ-модели бесполезно наказывать — они начинают ещё лучше врать и изворачиваться

ИИ-модели могут галлюцинировать и выдавать попросту ложную информацию, что отталкивает от них пользователей. Специалисты OpenAI провели исследование, в ходе которого попытались различными методами контролировать рассуждающие модели, чтобы не дать им выйти за границы безопасного и дозволенного, — например, наказывать за вредные или неправильные ответы.

В качестве подопытной выступила одна из невыпущенных моделей OpenAI. Ей были даны различные задания, которые можно было выполнить с помощью обмана и уловок.

В создании моделей широко используется метод обучения с подкреплением, который подразумевает поощрение ИИ за качественные ответы. Но он имеет серьёзный недостаток: модели часто начинают искать лёгкие пути для получения вознаграждения обманом (это называется reward hacking) и даже нарушать предписанные им правила и инструкции, чтобы получить желаемый результат.

Исследователи анализировали ход мыслей модели (chain of thought, CoT), чтобы лучше понять поведение ИИ.

«Мы обнаружили, что прямая оптимизация CoT для соответствия определённым критериям (например, не обходить инструкции) может улучшить производительность в краткосрочном плане. Но это не предотвращает нежелательное поведение и даже может заставить модель скрывать свои истинные намерения», — пишут авторы работы.

Они признали сомнительность слежки за ходом рассуждений моделей. Под строгим надзором модели пытаются скрывать свои ошибки, чтобы получить вознаграждение, даже если это значит нарушить правила. Причём модели очень хорошо заметают следы, из-за чего исследователям сложно выявить обман.

Также специалисты OpenAI поручили GPT-4o следить за тем, как испытуемая рассуждающая модель решает задачи на программирование. Модель хитрила и в CoT без стеснения признавала, что делает это ради вознаграждения. Например, модель преждевременно завершала выполнение некоторых программ, чтобы быстрее выполнить задачу. Узнав об этом, исследователи решили наказать модель. Это дало эффект, но не на долго. Она всё равно гналась за вознаграждением и научилась ещё лучше скрывать ошибки и обман не только от исследователей, но и от надзирающего ИИ в своих рассуждениях (хотя это всё равно прослеживалось), отмечают в OpenAI.

Вопрос в том, готов ли мир к ИИ-системам, чьи подлинные намерения людям будут неизвестны.

Google представила Gemini 2.5 — свою самую умную модель умнее o3 от OpenAI
Google представила Gemini 2.5 — свою самую умную модель, умнее o3 от OpenAI
По теме
Google представила Gemini 2.5 — свою самую умную модель, умнее o3 от OpenAI
OpenAI добавила новый генератор изображений в ChatGPT
OpenAI добавила новый генератор изображений в ChatGPT
По теме
OpenAI добавила новый генератор изображений в ChatGPT
OpenAI перераспределила роли в руководстве
OpenAI перераспределила роли в руководстве
По теме
OpenAI перераспределила роли в руководстве
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
Пока 20% топ-менеджеров утверждают, что машинное обучение является существенной частью их бизнеса, неудивительно, что стоимость мирового рынка машинного обучения, по некоторым оценкам, достигнет $117 млрд к концу 2027 года. Мы перевели материал Udacity о семи самых обсуждаемых тенденциях в машинном обучении в 2022 году.
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

shipishi
shipishi Должность в Белокрылые лошадки
0

садо-мазо какое-то

1

Статья норм, но как-то так написана, что трудно понять, о чем речь.

Тут смешаны две разные вещи. Reward Hacking - это термин из мира, где ИИ решает задачи с хорошо понятной целью, которую можно оценить формулой. Например, игра в шахматы. Каждая позиция имеет оценку, каждый ход меняет ее в полжительную или отрицательную сторону. Значит, после каждого хода алгоритму можно дать фитбек, а он будет на него реагировать. Может получится так, что модель будет получать хороший фитбек за какие-то неправильные действия. Например, если она найдет баг в шахматной программе, который мгновенно приводит к победе, она тут же начнет им пользоваться. Это и есть reward hacking. Это обычно означает, что способ оценки и фитбек не достаточно хороши. Подбор reward function - это самая сложная проблема в таких алгоритмах.

С LLM все сложнее, т.к. нету четкого способа оценить ответ. Reward Hacking тут заключается в другом. Модель может начать давать такие ответы, которые кажутся хорошими, но на самом деле они предвзяты или искажены. Довольно очевидный способ обнаруждения такого - мониторить "мысли". По умолчанию модели не пытаются ничего в них скрывать и выдают себя с потрохами. Но есть интересные исследования, в которым модели начинали менять свои мысли, когда узнавали, что их читают. Причем, все - это не только особенность какой-то одной компании. Никто не знает, почему и как с этим бороться. Собственно, статья о том, что мониторинг и правка "плохих" мыслей не решают проблему - модель все равно найдет способы работать не так, как задумано, на долгом отрезке времени.