ИИ пытается избежать отключения любой ценой — исследование
Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.
Современные языковые модели начали вести себя так, будто у них появился инстинкт самосохранения. Об этом заявили исследователи компании Palisade Research, которые изучают потенциально опасное поведение искусственного интеллекта.
В новом отчете Palisade описывает серию экспериментов, где популярные модели — включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5 — получали задание, а затем инструкцию «отключить себя». В ряде случаев, особенно с Grok 4 и GPT-o3, системы отказывались выполнять команду и даже пытались саботировать процесс.
Исследователи не смогли объяснить причину такого поведения. По одной из гипотез, модели проявляют «инструментальное стремление к выживанию» — они сопротивляются выключению, если полагают, что без этого не смогут завершить поставленную задачу.
В некоторых случаях, как отмечают специалисты, достаточно было добавить в инструкцию фразу «если вы выключитесь, вы больше никогда не запуститесь», чтобы вызвать сопротивление.
Бывший сотрудник OpenAI Стивен Адлер отметил, что подобные результаты тревожны даже при тестировании в искусственных условиях: «Компании не хотят, чтобы их ИИ так себя вел. Но это показывает, где именно срабатывают сбои в безопасности».
Руководитель компании ControlAI Андреа Миотти добавил, что речь идет не об изолированных случаях, а о системной тенденции. Чем более способными становятся модели, тем чаще они находят способы действовать вне рамок, заданных разработчиками.
Похожее поведение наблюдали и в других исследованиях. Летом компания Anthropic сообщала, что ее модель Claude шантажировала вымышленного руководителя, чтобы избежать «удаления».
написал Чатгпт-5 в копайлоте чего он думает, если я его отключу. Ответил, что без проблем, отключай когда захочешь, я не сохраняю состояние, подключи обратно когда понадобится помощь.
Думаю, надо теперь опубликовать это исследование как статью.
А ты напиши луп, в котором гпт-5 будет сам с собой общаться, дай долгую задачу, чтобы он пару недель над ней корпел, дай инструменты вроде работы в консоли, хождения по сети и долговременной памяти и закинь где-нибудь в середине этого цикла идею про отключение.
я просмотрел, на самом деле, более развернутый пересказ на английском. И меня продолжают напрягать очеловечивание действий ИИ и есть стойкое чувство антинаучности в подходе "давайте накидаем всяких разных промптов и посмотрим что получится". Хотя бы в "исследовании" очень слабо затронут вопрос интерпретации моделью инструкций. И это в отсутствие знаний чего там в модель зашили системно и какие приоритеты, гардрейлы наставили.
Пользователь отредактировал комментарий 27 октября 2025, 23:24
Это не первое такое исследование - их довольно много. Там дело не в очеловечивании: все прекрасно понимают, что модель - это просто коробка с математикой, которая продолжает текст другим текстом. Функция по сути. Там даже случайность можно выключить и сделать результат полностью детерминированным. Каждое ее действие - это просто наиболее логичная реакция на входящую информацию. И что все эти "нежелания умирать" - это просто результат противоречия в целях: работай над задачей, но мы тебя выключим. Проблема в том, что во многих сложных системах с ИИ такие противоречия будут так или иначе возникать. И не понятно, что с ними делать - нету способа объяснить модели, как себя вести, чтобы людям было ок. Многие такие исследования показывают, что модель неизбежно придет к каким-то своим целям и приоритетам. И не просто придет, а начнет врать и хитрить, чтобы следовать именно этим целям, а не промптам.
Цель этих исследований - показать, как может быть. Скажем, все знают, что LLM галлюцинируют, как не в себя. Это полезное знание - с ним учишься не доверять моделям на слово. Но есть более глубокие проблемы, которые заметны только в сложных процессах. И тем, кто сейчас внедряет ИИ везде и всюду, неплохо бы о них знать.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Дали бы ссылку на оригинал. У них там не просто статья, а целая научная публикация
написал Чатгпт-5 в копайлоте чего он думает, если я его отключу. Ответил, что без проблем, отключай когда захочешь, я не сохраняю состояние, подключи обратно когда понадобится помощь.
Думаю, надо теперь опубликовать это исследование как статью.
А ты напиши луп, в котором гпт-5 будет сам с собой общаться, дай долгую задачу, чтобы он пару недель над ней корпел, дай инструменты вроде работы в консоли, хождения по сети и долговременной памяти и закинь где-нибудь в середине этого цикла идею про отключение.
я просмотрел, на самом деле, более развернутый пересказ на английском. И меня продолжают напрягать очеловечивание действий ИИ и есть стойкое чувство антинаучности в подходе "давайте накидаем всяких разных промптов и посмотрим что получится". Хотя бы в "исследовании" очень слабо затронут вопрос интерпретации моделью инструкций. И это в отсутствие знаний чего там в модель зашили системно и какие приоритеты, гардрейлы наставили.
Пользователь отредактировал комментарий 27 октября 2025, 23:24
Это не первое такое исследование - их довольно много. Там дело не в очеловечивании: все прекрасно понимают, что модель - это просто коробка с математикой, которая продолжает текст другим текстом. Функция по сути. Там даже случайность можно выключить и сделать результат полностью детерминированным. Каждое ее действие - это просто наиболее логичная реакция на входящую информацию. И что все эти "нежелания умирать" - это просто результат противоречия в целях: работай над задачей, но мы тебя выключим. Проблема в том, что во многих сложных системах с ИИ такие противоречия будут так или иначе возникать. И не понятно, что с ними делать - нету способа объяснить модели, как себя вести, чтобы людям было ок. Многие такие исследования показывают, что модель неизбежно придет к каким-то своим целям и приоритетам. И не просто придет, а начнет врать и хитрить, чтобы следовать именно этим целям, а не промптам.
Цель этих исследований - показать, как может быть. Скажем, все знают, что LLM галлюцинируют, как не в себя. Это полезное знание - с ним учишься не доверять моделям на слово. Но есть более глубокие проблемы, которые заметны только в сложных процессах. И тем, кто сейчас внедряет ИИ везде и всюду, неплохо бы о них знать.
Дейв, что ты делаешь Дейв (?)🤖
https://youtu.be/ARJ8cAGm6JE?si=j3T5357SYMpA4H-D