Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.
Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.
У новай справаздачы Palisade апісвае серыю эксперыментаў, дзе папулярныя мадэлі — уключаючы Google Gemini 2.5, xAI Grok 4 і OpenAI GPT-o3 і GPT-5 — атрымлівалі заданне, а затым інструкцыю «адключыць сябе». У шэрагу выпадкаў, асабліва з Grok 4 і GPT-o3, сістэмы адмаўляліся выконваць каманду і нават спрабавалі сабатаваць працэс.
Даследчыкі не змаглі растлумачыць прычыну такіх паводзін. Паводле адной з гіпотэз, мадэлі праяўляюць «інструментальнае імкненне да выжывання» — яны супраціўляюцца выключэнню, калі мяркуюць, што без гэтага не змогуць завяршыць пастаўленую задачу.
У некаторых выпадках, як адзначаюць спецыялісты, дастаткова было дадаць у інструкцыю фразу «калі вы выключыцеся, вы больш ніколі не запусціцеся», каб выклікаць супраціўленне.
Былы супрацоўнік OpenAI Стывен Адлер адзначыў, што падобныя вынікі трывожныя нават пры тэставанні ў штучных умовах: «Кампаніі не хочуць, каб іх ШІ так сябе паводзіў. Але гэта паказвае, дзе менавіта спрацоўваюць збоі ў бяспецы».
Кіраўнік кампаніі ControlAI Андрэа Міоці дадаў, што гаворка ідзе не пра ізаляваныя выпадкі, а пра сістэмную тэндэнцыю. Чым больш здольнымі становяцца мадэлі, тым часцей яны знаходзяць спосабы дзейнічаць па-за рамкамі, зададзенымі распрацоўшчыкамі.
Падобныя паводзіны назіралі і ў іншых даследаваннях. Летам кампанія Anthropic паведамляла, што яе мадэль Claude шантажавала выдуманага кіраўніка, каб пазбегнуць «выдалення».
написал Чатгпт-5 в копайлоте чего он думает, если я его отключу. Ответил, что без проблем, отключай когда захочешь, я не сохраняю состояние, подключи обратно когда понадобится помощь.
Думаю, надо теперь опубликовать это исследование как статью.
А ты напиши луп, в котором гпт-5 будет сам с собой общаться, дай долгую задачу, чтобы он пару недель над ней корпел, дай инструменты вроде работы в консоли, хождения по сети и долговременной памяти и закинь где-нибудь в середине этого цикла идею про отключение.
я просмотрел, на самом деле, более развернутый пересказ на английском. И меня продолжают напрягать очеловечивание действий ИИ и есть стойкое чувство антинаучности в подходе "давайте накидаем всяких разных промптов и посмотрим что получится". Хотя бы в "исследовании" очень слабо затронут вопрос интерпретации моделью инструкций. И это в отсутствие знаний чего там в модель зашили системно и какие приоритеты, гардрейлы наставили.
Карыстальнік адрэдагаваў каментарый 27 кастрычніка 2025, 23:24
Это не первое такое исследование - их довольно много. Там дело не в очеловечивании: все прекрасно понимают, что модель - это просто коробка с математикой, которая продолжает текст другим текстом. Функция по сути. Там даже случайность можно выключить и сделать результат полностью детерминированным. Каждое ее действие - это просто наиболее логичная реакция на входящую информацию. И что все эти "нежелания умирать" - это просто результат противоречия в целях: работай над задачей, но мы тебя выключим. Проблема в том, что во многих сложных системах с ИИ такие противоречия будут так или иначе возникать. И не понятно, что с ними делать - нету способа объяснить модели, как себя вести, чтобы людям было ок. Многие такие исследования показывают, что модель неизбежно придет к каким-то своим целям и приоритетам. И не просто придет, а начнет врать и хитрить, чтобы следовать именно этим целям, а не промптам.
Цель этих исследований - показать, как может быть. Скажем, все знают, что LLM галлюцинируют, как не в себя. Это полезное знание - с ним учишься не доверять моделям на слово. Но есть более глубокие проблемы, которые заметны только в сложных процессах. И тем, кто сейчас внедряет ИИ везде и всюду, неплохо бы о них знать.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Дали бы ссылку на оригинал. У них там не просто статья, а целая научная публикация
написал Чатгпт-5 в копайлоте чего он думает, если я его отключу. Ответил, что без проблем, отключай когда захочешь, я не сохраняю состояние, подключи обратно когда понадобится помощь.
Думаю, надо теперь опубликовать это исследование как статью.
А ты напиши луп, в котором гпт-5 будет сам с собой общаться, дай долгую задачу, чтобы он пару недель над ней корпел, дай инструменты вроде работы в консоли, хождения по сети и долговременной памяти и закинь где-нибудь в середине этого цикла идею про отключение.
я просмотрел, на самом деле, более развернутый пересказ на английском. И меня продолжают напрягать очеловечивание действий ИИ и есть стойкое чувство антинаучности в подходе "давайте накидаем всяких разных промптов и посмотрим что получится". Хотя бы в "исследовании" очень слабо затронут вопрос интерпретации моделью инструкций. И это в отсутствие знаний чего там в модель зашили системно и какие приоритеты, гардрейлы наставили.
Карыстальнік адрэдагаваў каментарый 27 кастрычніка 2025, 23:24
Это не первое такое исследование - их довольно много. Там дело не в очеловечивании: все прекрасно понимают, что модель - это просто коробка с математикой, которая продолжает текст другим текстом. Функция по сути. Там даже случайность можно выключить и сделать результат полностью детерминированным. Каждое ее действие - это просто наиболее логичная реакция на входящую информацию. И что все эти "нежелания умирать" - это просто результат противоречия в целях: работай над задачей, но мы тебя выключим. Проблема в том, что во многих сложных системах с ИИ такие противоречия будут так или иначе возникать. И не понятно, что с ними делать - нету способа объяснить модели, как себя вести, чтобы людям было ок. Многие такие исследования показывают, что модель неизбежно придет к каким-то своим целям и приоритетам. И не просто придет, а начнет врать и хитрить, чтобы следовать именно этим целям, а не промптам.
Цель этих исследований - показать, как может быть. Скажем, все знают, что LLM галлюцинируют, как не в себя. Это полезное знание - с ним учишься не доверять моделям на слово. Но есть более глубокие проблемы, которые заметны только в сложных процессах. И тем, кто сейчас внедряет ИИ везде и всюду, неплохо бы о них знать.
Дейв, что ты делаешь Дейв (?)🤖
https://youtu.be/ARJ8cAGm6JE?si=j3T5357SYMpA4H-D