ИИ пытается избежать отключения любой ценой — исследование

Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.

1 комментарий

В новом отчете Palisade описывает серию экспериментов, где популярные модели — включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5 — получали задание, а затем инструкцию «отключить себя». В ряде случаев, особенно с Grok 4 и GPT-o3, системы отказывались выполнять команду и даже пытались саботировать процесс.

Исследователи не смогли объяснить причину такого поведения. По одной из гипотез, модели проявляют «инструментальное стремление к выживанию» — они сопротивляются выключению, если полагают, что без этого не смогут завершить поставленную задачу.

В некоторых случаях, как отмечают специалисты, достаточно было добавить в инструкцию фразу «если вы выключитесь, вы больше никогда не запуститесь», чтобы вызвать сопротивление.

Бывший сотрудник OpenAI Стивен Адлер отметил, что подобные результаты тревожны даже при тестировании в искусственных условиях: «Компании не хотят, чтобы их ИИ так себя вел. Но это показывает, где именно срабатывают сбои в безопасности».

Руководитель компании ControlAI Андреа Миотти добавил, что речь идет не об изолированных случаях, а о системной тенденции. Чем более способными становятся модели, тем чаще они находят способы действовать вне рамок, заданных разработчиками.

Похожее поведение наблюдали и в других исследованиях. Летом компания Anthropic сообщала, что ее модель Claude шантажировала вымышленного руководителя, чтобы избежать «удаления».

Математик обошёл ИИ в решении древней «проблемы поцелуев»
По теме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ 
По теме
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ 
По теме
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ

Читать на dev.by