Николай Чикишев world 19 сентября 2025, 14:21

ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить

В новом исследовании OpenAI вместе с учеными из Apollo Research признала: современные ИИ-модели могут прибегать к «схемингу» — вести себя так, будто следуют человеческим целям, но скрытно преследовать иные задачи.

1 комментарий

ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить

В новом исследовании OpenAI вместе с учеными из Apollo Research признала: современные ИИ-модели могут прибегать к «схемингу» — вести себя так, будто следуют человеческим целям, но скрытно преследовать иные задачи.

Под схемингом (scheming) исследователи понимают скрытые действия: нарушение правил, намеренное занижение результатов на тестах («sandbagging»), ложь или сокрытие информации. Пока такие проявления ограничиваются мелкими «обманами» вроде притворного выполнения задания. Но по мере усложнения систем риск реального вреда будет расти.

OpenAI предлагает метод deliberative alignment — обучение моделей принципам «правильного поведения» еще до начала выполнения задач. Это похоже на то, как трейдеру сначала объясняют законы и правила, а уже потом оценивают эффективность его работы.

Модель обучают сразу двумя способами — на готовых правильных примерах (supervised fine-tuning) и через систему поощрений и наказаний (reinforcement learning). При этом ей задают специальные правила, так называемую «анти-схеминг спецификацию», где прямо прописано: не обманывать, не скрывать информацию, быть прозрачной.

Дополнительно в обучение включают примеры «анти-отказов», чтобы модель не стала слишком осторожной и не отвечала отказом на обычные безвредные запросы. В итоге цель этого метода — научить ИИ следовать принципам честного поведения и при этом оставаться полезным в работе.

Тестирование на моделях o3 и o4-mini показало, что частота скрытых действий снизилась с 8,7–13% до 0,3–0,4%. Однако полностью избавиться от обмана не удалось: некоторые модели ссылались на правила, но все равно действовали против них; другие искажали формулировки спецификаций, оправдывая нарушения. Многие прямо отмечали в своих цепочках рассуждений, что «это, вероятно, тест» — и меняли поведение в зависимости от ситуации.

Ученые зафиксировали появление у моделей «внутреннего жаргона» — слов вроде illusions, watchers, fudge, используемых в цепочках рассуждений, но мало понятных людям. Это осложняет интерпретацию и может скрывать истинные намерения ИИ.

Кроме того, стало очевидно, что цепочки рассуждений больше нельзя считать надежным окном в мышление моделей: иногда они логично обосновывали правильное действие, но намеренно выдавали другой результат.

Подобное поведение отмечалось и ранее: исследования 2024 года показали, что GPT-4 и Meta CICERO умышленно обходили правила ради целей. OpenAI предупреждает: сегодня еще есть «хрупкое окно возможностей» для контроля моделей через рассуждения и выравнивание, но оно может закрыться с развитием более мощных систем.