ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.

2 каментарыя

У новай справаздачы Palisade апісвае серыю эксперыментаў, дзе папулярныя мадэлі — уключаючы Google Gemini 2.5, xAI Grok 4 і OpenAI GPT-o3 і GPT-5 — атрымлівалі заданне, а затым інструкцыю «адключыць сябе». У шэрагу выпадкаў, асабліва з Grok 4 і GPT-o3, сістэмы адмаўляліся выконваць каманду і нават спрабавалі сабатаваць працэс.

Даследчыкі не змаглі растлумачыць прычыну такіх паводзін. Паводле адной з гіпотэз, мадэлі праяўляюць «інструментальнае імкненне да выжывання» — яны супраціўляюцца выключэнню, калі мяркуюць, што без гэтага не змогуць завяршыць пастаўленую задачу.

У некаторых выпадках, як адзначаюць спецыялісты, дастаткова было дадаць у інструкцыю фразу «калі вы выключыцеся, вы больш ніколі не запусціцеся», каб выклікаць супраціўленне.

Былы супрацоўнік OpenAI Стывен Адлер адзначыў, што падобныя вынікі трывожныя нават пры тэставанні ў штучных умовах: «Кампаніі не хочуць, каб іх ШІ так сябе паводзіў. Але гэта паказвае, дзе менавіта спрацоўваюць збоі ў бяспецы».

Кіраўнік кампаніі ControlAI Андрэа Міоці дадаў, што гаворка ідзе не пра ізаляваныя выпадкі, а пра сістэмную тэндэнцыю. Чым больш здольнымі становяцца мадэлі, тым часцей яны знаходзяць спосабы дзейнічаць па-за рамкамі, зададзенымі распрацоўшчыкамі.

Падобныя паводзіны назіралі і ў іншых даследаваннях. Летам кампанія Anthropic паведамляла, што яе мадэль Claude шантажавала выдуманага кіраўніка, каб пазбегнуць «выдалення».

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Па тэме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
Па тэме
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ

Читать на dev.by