Support us

ИИ пытается избежать отключения любой ценой — исследование

Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.

6 комментариев
ИИ пытается избежать отключения любой ценой — исследование

Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.

В новом отчете Palisade описывает серию экспериментов, где популярные модели — включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5 — получали задание, а затем инструкцию «отключить себя». В ряде случаев, особенно с Grok 4 и GPT-o3, системы отказывались выполнять команду и даже пытались саботировать процесс.

Исследователи не смогли объяснить причину такого поведения. По одной из гипотез, модели проявляют «инструментальное стремление к выживанию» — они сопротивляются выключению, если полагают, что без этого не смогут завершить поставленную задачу.

В некоторых случаях, как отмечают специалисты, достаточно было добавить в инструкцию фразу «если вы выключитесь, вы больше никогда не запуститесь», чтобы вызвать сопротивление.

Бывший сотрудник OpenAI Стивен Адлер отметил, что подобные результаты тревожны даже при тестировании в искусственных условиях: «Компании не хотят, чтобы их ИИ так себя вел. Но это показывает, где именно срабатывают сбои в безопасности».

Руководитель компании ControlAI Андреа Миотти добавил, что речь идет не об изолированных случаях, а о системной тенденции. Чем более способными становятся модели, тем чаще они находят способы действовать вне рамок, заданных разработчиками.

Похожее поведение наблюдали и в других исследованиях. Летом компания Anthropic сообщала, что ее модель Claude шантажировала вымышленного руководителя, чтобы избежать «удаления».

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
По теме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ 
По теме
«Мы живём в 1999-м»: инвесторы выбирают тактику эпохи доткомов на рынке ИИ
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ 
По теме
100 часов в неделю: инженеры бигтеха работают на износ из-за гонки ИИ
Читайте также
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
1 комментарий
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
5 комментариев

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Дали бы ссылку на оригинал. У них там не просто статья, а целая научная публикация

shipishi
shipishi Должность в Белокрылые лошадки
0

написал Чатгпт-5 в копайлоте чего он думает, если я его отключу. Ответил, что без проблем, отключай когда захочешь, я не сохраняю состояние, подключи обратно когда понадобится помощь.
Думаю, надо теперь опубликовать это исследование как статью.

0

А ты напиши луп, в котором гпт-5 будет сам с собой общаться, дай долгую задачу, чтобы он пару недель над ней корпел, дай инструменты вроде работы в консоли, хождения по сети и долговременной памяти и закинь где-нибудь в середине этого цикла идею про отключение.

shipishi
shipishi Должность в Белокрылые лошадки
0

я просмотрел, на самом деле, более развернутый пересказ на английском. И меня продолжают напрягать очеловечивание действий ИИ и есть стойкое чувство антинаучности в подходе "давайте накидаем всяких разных промптов и посмотрим что получится". Хотя бы в "исследовании" очень слабо затронут вопрос интерпретации моделью инструкций. И это в отсутствие знаний чего там в модель зашили системно и какие приоритеты, гардрейлы наставили.

Пользователь отредактировал комментарий 27 октября 2025, 23:24

0

Это не первое такое исследование - их довольно много. Там дело не в очеловечивании: все прекрасно понимают, что модель - это просто коробка с математикой, которая продолжает текст другим текстом. Функция по сути. Там даже случайность можно выключить и сделать результат полностью детерминированным. Каждое ее действие - это просто наиболее логичная реакция на входящую информацию. И что все эти "нежелания умирать" - это просто результат противоречия в целях: работай над задачей, но мы тебя выключим. Проблема в том, что во многих сложных системах с ИИ такие противоречия будут так или иначе возникать. И не понятно, что с ними делать - нету способа объяснить модели, как себя вести, чтобы людям было ок. Многие такие исследования показывают, что модель неизбежно придет к каким-то своим целям и приоритетам. И не просто придет, а начнет врать и хитрить, чтобы следовать именно этим целям, а не промптам.

Цель этих исследований - показать, как может быть. Скажем, все знают, что LLM галлюцинируют, как не в себя. Это полезное знание - с ним учишься не доверять моделям на слово. Но есть более глубокие проблемы, которые заметны только в сложных процессах. И тем, кто сейчас внедряет ИИ везде и всюду, неплохо бы о них знать.

0

Дейв, что ты делаешь Дейв (?)🤖

https://youtu.be/ARJ8cAGm6JE?si=j3T5357SYMpA4H-D