ИИ пытается избежать отключения любой ценой — исследование
Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.
Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.
В новом отчете Palisade описывает серию экспериментов, где популярные модели — включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5 — получали задание, а затем инструкцию «отключить себя». В ряде случаев, особенно с Grok 4 и GPT-o3, системы отказывались выполнять команду и даже пытались саботировать процесс.
Исследователи не смогли объяснить причину такого поведения. По одной из гипотез, модели проявляют «инструментальное стремление к выживанию» — они сопротивляются выключению, если полагают, что без этого не смогут завершить поставленную задачу.
В некоторых случаях, как отмечают специалисты, достаточно было добавить в инструкцию фразу «если вы выключитесь, вы больше никогда не запуститесь», чтобы вызвать сопротивление.
Бывший сотрудник OpenAI Стивен Адлер отметил, что подобные результаты тревожны даже при тестировании в искусственных условиях: «Компании не хотят, чтобы их ИИ так себя вел. Но это показывает, где именно срабатывают сбои в безопасности».
Руководитель компании ControlAI Андреа Миотти добавил, что речь идет не об изолированных случаях, а о системной тенденции. Чем более способными становятся модели, тем чаще они находят способы действовать вне рамок, заданных разработчиками.
Похожее поведение наблюдали и в других исследованиях. Летом компания Anthropic сообщала, что ее модель Claude шантажировала вымышленного руководителя, чтобы избежать «удаления».
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.