Дапамажыце dev.by 🤍
Падтрымаць

ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.

6 каментарыяў
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.

У новай справаздачы Palisade апісвае серыю эксперыментаў, дзе папулярныя мадэлі — уключаючы Google Gemini 2.5, xAI Grok 4 і OpenAI GPT-o3 і GPT-5 — атрымлівалі заданне, а затым інструкцыю «адключыць сябе». У шэрагу выпадкаў, асабліва з Grok 4 і GPT-o3, сістэмы адмаўляліся выконваць каманду і нават спрабавалі сабатаваць працэс.

Даследчыкі не змаглі растлумачыць прычыну такіх паводзін. Паводле адной з гіпотэз, мадэлі праяўляюць «інструментальнае імкненне да выжывання» — яны супраціўляюцца выключэнню, калі мяркуюць, што без гэтага не змогуць завяршыць пастаўленую задачу.

У некаторых выпадках, як адзначаюць спецыялісты, дастаткова было дадаць у інструкцыю фразу «калі вы выключыцеся, вы больш ніколі не запусціцеся», каб выклікаць супраціўленне.

Былы супрацоўнік OpenAI Стывен Адлер адзначыў, што падобныя вынікі трывожныя нават пры тэставанні ў штучных умовах: «Кампаніі не хочуць, каб іх ШІ так сябе паводзіў. Але гэта паказвае, дзе менавіта спрацоўваюць збоі ў бяспецы».

Кіраўнік кампаніі ControlAI Андрэа Міоці дадаў, што гаворка ідзе не пра ізаляваныя выпадкі, а пра сістэмную тэндэнцыю. Чым больш здольнымі становяцца мадэлі, тым часцей яны знаходзяць спосабы дзейнічаць па-за рамкамі, зададзенымі распрацоўшчыкамі.

Падобныя паводзіны назіралі і ў іншых даследаваннях. Летам кампанія Anthropic паведамляла, што яе мадэль Claude шантажавала выдуманага кіраўніка, каб пазбегнуць «выдалення».

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
Па тэме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
Па тэме
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
Чытайце таксама
Бігтэх махлярыць са справаздачнасцю — меркаванне інвестара, які прадказаў крызіс 2008 года
Бігтэх махлярыць са справаздачнасцю — меркаванне інвестара, які прадказаў крызіс 2008 года
Бігтэх махлярыць са справаздачнасцю — меркаванне інвестара, які прадказаў крызіс 2008 года
Google укараняе агентны шопінг: ШІ сам шукае, параўноўвае і купляе тавары
Google укараняе агентны шопінг: ШІ сам шукае, параўноўвае і купляе тавары
Google укараняе агентны шопінг: ШІ сам шукае, параўноўвае і купляе тавары
1 каментарый
Microsoft хоча змяніць падпіскі: плаціць давядзецца за ШІ-агентаў, а не за людзей
Microsoft хоча змяніць падпіскі: плаціць давядзецца за ШІ-агентаў, а не за людзей
Microsoft хоча змяніць падпіскі: плаціць давядзецца за ШІ-агентаў, а не за людзей
Кепскія навіны для тых, хто не любіць галасавыя паведамленні: праз 5 гадоў праца будзе будавацца на іх
Кепскія навіны для тых, хто не любіць галасавыя паведамленні: праз 5 гадоў праца будзе будавацца на іх
Кепскія навіны для тых, хто не любіць галасавыя паведамленні: праз 5 гадоў праца будзе будавацца на іх
8 каментарыяў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

0

Дали бы ссылку на оригинал. У них там не просто статья, а целая научная публикация

shipishi
shipishi Должность в Белокрылые лошадки
0

написал Чатгпт-5 в копайлоте чего он думает, если я его отключу. Ответил, что без проблем, отключай когда захочешь, я не сохраняю состояние, подключи обратно когда понадобится помощь.
Думаю, надо теперь опубликовать это исследование как статью.

0

А ты напиши луп, в котором гпт-5 будет сам с собой общаться, дай долгую задачу, чтобы он пару недель над ней корпел, дай инструменты вроде работы в консоли, хождения по сети и долговременной памяти и закинь где-нибудь в середине этого цикла идею про отключение.

shipishi
shipishi Должность в Белокрылые лошадки
0

я просмотрел, на самом деле, более развернутый пересказ на английском. И меня продолжают напрягать очеловечивание действий ИИ и есть стойкое чувство антинаучности в подходе "давайте накидаем всяких разных промптов и посмотрим что получится". Хотя бы в "исследовании" очень слабо затронут вопрос интерпретации моделью инструкций. И это в отсутствие знаний чего там в модель зашили системно и какие приоритеты, гардрейлы наставили.

Карыстальнік адрэдагаваў каментарый 27 кастрычніка 2025, 23:24

0

Это не первое такое исследование - их довольно много. Там дело не в очеловечивании: все прекрасно понимают, что модель - это просто коробка с математикой, которая продолжает текст другим текстом. Функция по сути. Там даже случайность можно выключить и сделать результат полностью детерминированным. Каждое ее действие - это просто наиболее логичная реакция на входящую информацию. И что все эти "нежелания умирать" - это просто результат противоречия в целях: работай над задачей, но мы тебя выключим. Проблема в том, что во многих сложных системах с ИИ такие противоречия будут так или иначе возникать. И не понятно, что с ними делать - нету способа объяснить модели, как себя вести, чтобы людям было ок. Многие такие исследования показывают, что модель неизбежно придет к каким-то своим целям и приоритетам. И не просто придет, а начнет врать и хитрить, чтобы следовать именно этим целям, а не промптам.

Цель этих исследований - показать, как может быть. Скажем, все знают, что LLM галлюцинируют, как не в себя. Это полезное знание - с ним учишься не доверять моделям на слово. Но есть более глубокие проблемы, которые заметны только в сложных процессах. И тем, кто сейчас внедряет ИИ везде и всюду, неплохо бы о них знать.

0

Дейв, что ты делаешь Дейв (?)🤖

https://youtu.be/ARJ8cAGm6JE?si=j3T5357SYMpA4H-D