🚀 Идем на ежегодный Cloud Security TechSpot в Варшаве
Support us

ИИ пытается избежать отключения любой ценой — исследование

Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.

Оставить комментарий
ИИ пытается избежать отключения любой ценой — исследование

Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.

В новом отчете Palisade описывает серию экспериментов, где популярные модели — включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5 — получали задание, а затем инструкцию «отключить себя». В ряде случаев, особенно с Grok 4 и GPT-o3, системы отказывались выполнять команду и даже пытались саботировать процесс.

Исследователи не смогли объяснить причину такого поведения. По одной из гипотез, модели проявляют «инструментальное стремление к выживанию» — они сопротивляются выключению, если полагают, что без этого не смогут завершить поставленную задачу.

В некоторых случаях, как отмечают специалисты, достаточно было добавить в инструкцию фразу «если вы выключитесь, вы больше никогда не запуститесь», чтобы вызвать сопротивление.

Бывший сотрудник OpenAI Стивен Адлер отметил, что подобные результаты тревожны даже при тестировании в искусственных условиях: «Компании не хотят, чтобы их ИИ так себя вел. Но это показывает, где именно срабатывают сбои в безопасности».

Руководитель компании ControlAI Андреа Миотти добавил, что речь идет не об изолированных случаях, а о системной тенденции. Чем более способными становятся модели, тем чаще они находят способы действовать вне рамок, заданных разработчиками.

Похожее поведение наблюдали и в других исследованиях. Летом компания Anthropic сообщала, что ее модель Claude шантажировала вымышленного руководителя, чтобы избежать «удаления».

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
По теме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ 
По теме
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ 
По теме
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ
Читайте также
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
На «Горизонте» сказали, когда можно будет купить первый беларусский планшет
На «Горизонте» сказали, когда можно будет купить первый беларусский планшет
На «Горизонте» сказали, когда можно будет купить первый беларусский планшет
Пока ИИ разгоняет экономику США, малый бизнес — на грани выживания
Пока ИИ разгоняет экономику США, малый бизнес — на грани выживания
Пока ИИ разгоняет экономику США, малый бизнес — на грани выживания
Как AI всё изменит. Мнение физика из 2% самых цитируемых учёных мира
Как AI всё изменит. Мнение физика из 2% самых цитируемых учёных мира
Как AI всё изменит. Мнение физика из 2% самых цитируемых учёных мира
Какое место ИИ занимает в современной науке и как оно может измениться в будущем? Спросили у физика Виктора Асадчего.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.