Support us

ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить

В новом исследовании OpenAI вместе с учеными из Apollo Research признала: современные ИИ-модели могут прибегать к «схемингу» — вести себя так, будто следуют человеческим целям, но скрытно преследовать иные задачи.

1 комментарий
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить

В новом исследовании OpenAI вместе с учеными из Apollo Research признала: современные ИИ-модели могут прибегать к «схемингу» — вести себя так, будто следуют человеческим целям, но скрытно преследовать иные задачи.

Под схемингом (scheming) исследователи понимают скрытые действия: нарушение правил, намеренное занижение результатов на тестах («sandbagging»), ложь или сокрытие информации. Пока такие проявления ограничиваются мелкими «обманами» вроде притворного выполнения задания. Но по мере усложнения систем риск реального вреда будет расти.

OpenAI предлагает метод deliberative alignment — обучение моделей принципам «правильного поведения» еще до начала выполнения задач. Это похоже на то, как трейдеру сначала объясняют законы и правила, а уже потом оценивают эффективность его работы.

Модель обучают сразу двумя способами — на готовых правильных примерах (supervised fine-tuning) и через систему поощрений и наказаний (reinforcement learning). При этом ей задают специальные правила, так называемую «анти-схеминг спецификацию», где прямо прописано: не обманывать, не скрывать информацию, быть прозрачной.

Дополнительно в обучение включают примеры «анти-отказов», чтобы модель не стала слишком осторожной и не отвечала отказом на обычные безвредные запросы. В итоге цель этого метода — научить ИИ следовать принципам честного поведения и при этом оставаться полезным в работе.

Тестирование на моделях o3 и o4-mini показало, что частота скрытых действий снизилась с 8,7–13% до 0,3–0,4%. Однако полностью избавиться от обмана не удалось: некоторые модели ссылались на правила, но все равно действовали против них; другие искажали формулировки спецификаций, оправдывая нарушения. Многие прямо отмечали в своих цепочках рассуждений, что «это, вероятно, тест» — и меняли поведение в зависимости от ситуации.

Ученые зафиксировали появление у моделей «внутреннего жаргона» — слов вроде illusions, watchers, fudge, используемых в цепочках рассуждений, но мало понятных людям. Это осложняет интерпретацию и может скрывать истинные намерения ИИ.

Кроме того, стало очевидно, что цепочки рассуждений больше нельзя считать надежным окном в мышление моделей: иногда они логично обосновывали правильное действие, но намеренно выдавали другой результат.

Подобное поведение отмечалось и ранее: исследования 2024 года показали, что GPT-4 и Meta CICERO умышленно обходили правила ради целей. OpenAI предупреждает: сегодня еще есть «хрупкое окно возможностей» для контроля моделей через рассуждения и выравнивание, но оно может закрыться с развитием более мощных систем.

CEO Microsoft боится что компания не выживет в эпоху ИИ
CEO Microsoft боится, что компания не выживет в эпоху ИИ 
По теме
CEO Microsoft боится, что компания не выживет в эпоху ИИ
Самовольные ИИ-профили сотрудников превращаются в бомбу замедленного действия
Самовольные ИИ-профили сотрудников превращаются в бомбу замедленного действия
По теме
Самовольные ИИ-профили сотрудников превращаются в бомбу замедленного действия
ChatGPT оправдывает людей даже когда они очевидно неправы
ChatGPT оправдывает людей, даже когда они очевидно неправы
По теме
ChatGPT оправдывает людей, даже когда они очевидно неправы
Читайте также
ИИ за $60 в час оказался эффективнее хакеров в тестовом взломе
ИИ за $60 в час оказался эффективнее хакеров в тестовом взломе
ИИ за $60 в час оказался эффективнее хакеров в тестовом взломе
Google открыла разработчикам доступ к агенту Deep Research через API
Google открыла разработчикам доступ к агенту Deep Research через API
Google открыла разработчикам доступ к агенту Deep Research через API
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
2 комментария
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментарий скрыт за нарушение правил комментирования.

Правила тут, их всего 5