Дапамажыце dev.by 🤍
Падтрымаць

ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.

6 каментарыяў
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.

У новай справаздачы Palisade апісвае серыю эксперыментаў, дзе папулярныя мадэлі — уключаючы Google Gemini 2.5, xAI Grok 4 і OpenAI GPT-o3 і GPT-5 — атрымлівалі заданне, а затым інструкцыю «адключыць сябе». У шэрагу выпадкаў, асабліва з Grok 4 і GPT-o3, сістэмы адмаўляліся выконваць каманду і нават спрабавалі сабатаваць працэс.

Даследчыкі не змаглі растлумачыць прычыну такіх паводзін. Паводле адной з гіпотэз, мадэлі праяўляюць «інструментальнае імкненне да выжывання» — яны супраціўляюцца выключэнню, калі мяркуюць, што без гэтага не змогуць завяршыць пастаўленую задачу.

У некаторых выпадках, як адзначаюць спецыялісты, дастаткова было дадаць у інструкцыю фразу «калі вы выключыцеся, вы больш ніколі не запусціцеся», каб выклікаць супраціўленне.

Былы супрацоўнік OpenAI Стывен Адлер адзначыў, што падобныя вынікі трывожныя нават пры тэставанні ў штучных умовах: «Кампаніі не хочуць, каб іх ШІ так сябе паводзіў. Але гэта паказвае, дзе менавіта спрацоўваюць збоі ў бяспецы».

Кіраўнік кампаніі ControlAI Андрэа Міоці дадаў, што гаворка ідзе не пра ізаляваныя выпадкі, а пра сістэмную тэндэнцыю. Чым больш здольнымі становяцца мадэлі, тым часцей яны знаходзяць спосабы дзейнічаць па-за рамкамі, зададзенымі распрацоўшчыкамі.

Падобныя паводзіны назіралі і ў іншых даследаваннях. Летам кампанія Anthropic паведамляла, што яе мадэль Claude шантажавала выдуманага кіраўніка, каб пазбегнуць «выдалення».

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
Па тэме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
Па тэме
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
Чытайце таксама
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

0

Дали бы ссылку на оригинал. У них там не просто статья, а целая научная публикация

shipishi
shipishi Должность в Белокрылые лошадки
0

написал Чатгпт-5 в копайлоте чего он думает, если я его отключу. Ответил, что без проблем, отключай когда захочешь, я не сохраняю состояние, подключи обратно когда понадобится помощь.
Думаю, надо теперь опубликовать это исследование как статью.

0

А ты напиши луп, в котором гпт-5 будет сам с собой общаться, дай долгую задачу, чтобы он пару недель над ней корпел, дай инструменты вроде работы в консоли, хождения по сети и долговременной памяти и закинь где-нибудь в середине этого цикла идею про отключение.

shipishi
shipishi Должность в Белокрылые лошадки
0

я просмотрел, на самом деле, более развернутый пересказ на английском. И меня продолжают напрягать очеловечивание действий ИИ и есть стойкое чувство антинаучности в подходе "давайте накидаем всяких разных промптов и посмотрим что получится". Хотя бы в "исследовании" очень слабо затронут вопрос интерпретации моделью инструкций. И это в отсутствие знаний чего там в модель зашили системно и какие приоритеты, гардрейлы наставили.

Карыстальнік адрэдагаваў каментарый 27 кастрычніка 2025, 23:24

0

Это не первое такое исследование - их довольно много. Там дело не в очеловечивании: все прекрасно понимают, что модель - это просто коробка с математикой, которая продолжает текст другим текстом. Функция по сути. Там даже случайность можно выключить и сделать результат полностью детерминированным. Каждое ее действие - это просто наиболее логичная реакция на входящую информацию. И что все эти "нежелания умирать" - это просто результат противоречия в целях: работай над задачей, но мы тебя выключим. Проблема в том, что во многих сложных системах с ИИ такие противоречия будут так или иначе возникать. И не понятно, что с ними делать - нету способа объяснить модели, как себя вести, чтобы людям было ок. Многие такие исследования показывают, что модель неизбежно придет к каким-то своим целям и приоритетам. И не просто придет, а начнет врать и хитрить, чтобы следовать именно этим целям, а не промптам.

Цель этих исследований - показать, как может быть. Скажем, все знают, что LLM галлюцинируют, как не в себя. Это полезное знание - с ним учишься не доверять моделям на слово. Но есть более глубокие проблемы, которые заметны только в сложных процессах. И тем, кто сейчас внедряет ИИ везде и всюду, неплохо бы о них знать.

0

Дейв, что ты делаешь Дейв (?)🤖

https://youtu.be/ARJ8cAGm6JE?si=j3T5357SYMpA4H-D