Как создать комьюнити на 300+ человек в IT-компании 💡
Support us

ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить

В новом исследовании OpenAI вместе с учеными из Apollo Research признала: современные ИИ-модели могут прибегать к «схемингу» — вести себя так, будто следуют человеческим целям, но скрытно преследовать иные задачи.

1 комментарий
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить

В новом исследовании OpenAI вместе с учеными из Apollo Research признала: современные ИИ-модели могут прибегать к «схемингу» — вести себя так, будто следуют человеческим целям, но скрытно преследовать иные задачи.

Под схемингом (scheming) исследователи понимают скрытые действия: нарушение правил, намеренное занижение результатов на тестах («sandbagging»), ложь или сокрытие информации. Пока такие проявления ограничиваются мелкими «обманами» вроде притворного выполнения задания. Но по мере усложнения систем риск реального вреда будет расти.

OpenAI предлагает метод deliberative alignment — обучение моделей принципам «правильного поведения» еще до начала выполнения задач. Это похоже на то, как трейдеру сначала объясняют законы и правила, а уже потом оценивают эффективность его работы.

Модель обучают сразу двумя способами — на готовых правильных примерах (supervised fine-tuning) и через систему поощрений и наказаний (reinforcement learning). При этом ей задают специальные правила, так называемую «анти-схеминг спецификацию», где прямо прописано: не обманывать, не скрывать информацию, быть прозрачной.

Дополнительно в обучение включают примеры «анти-отказов», чтобы модель не стала слишком осторожной и не отвечала отказом на обычные безвредные запросы. В итоге цель этого метода — научить ИИ следовать принципам честного поведения и при этом оставаться полезным в работе.

Тестирование на моделях o3 и o4-mini показало, что частота скрытых действий снизилась с 8,7–13% до 0,3–0,4%. Однако полностью избавиться от обмана не удалось: некоторые модели ссылались на правила, но все равно действовали против них; другие искажали формулировки спецификаций, оправдывая нарушения. Многие прямо отмечали в своих цепочках рассуждений, что «это, вероятно, тест» — и меняли поведение в зависимости от ситуации.

Ученые зафиксировали появление у моделей «внутреннего жаргона» — слов вроде illusions, watchers, fudge, используемых в цепочках рассуждений, но мало понятных людям. Это осложняет интерпретацию и может скрывать истинные намерения ИИ.

Кроме того, стало очевидно, что цепочки рассуждений больше нельзя считать надежным окном в мышление моделей: иногда они логично обосновывали правильное действие, но намеренно выдавали другой результат.

Подобное поведение отмечалось и ранее: исследования 2024 года показали, что GPT-4 и Meta CICERO умышленно обходили правила ради целей. OpenAI предупреждает: сегодня еще есть «хрупкое окно возможностей» для контроля моделей через рассуждения и выравнивание, но оно может закрыться с развитием более мощных систем.

CEO Microsoft боится что компания не выживет в эпоху ИИ
CEO Microsoft боится, что компания не выживет в эпоху ИИ 
По теме
CEO Microsoft боится, что компания не выживет в эпоху ИИ
Самовольные ИИ-профили сотрудников превращаются в бомбу замедленного действия
Самовольные ИИ-профили сотрудников превращаются в бомбу замедленного действия
По теме
Самовольные ИИ-профили сотрудников превращаются в бомбу замедленного действия
ChatGPT оправдывает людей даже когда они очевидно неправы
ChatGPT оправдывает людей, даже когда они очевидно неправы
По теме
ChatGPT оправдывает людей, даже когда они очевидно неправы
Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментарий скрыт за нарушение правил комментирования.

Правила тут, их всего 5