Дапамажыце dev.by 🤍
Падтрымаць

ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.

1 каментарый
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

Сучасныя моўныя мадэлі пачалі паводзіць сябе так, быццам у іх з’явіўся інстынкт самазахавання. Пра гэта заявілі даследчыкі кампаніі Palisade Research, якія вывучаюць патэнцыйна небяспечныя паводзіны штучнага інтэлекту.

У новай справаздачы Palisade апісвае серыю эксперыментаў, дзе папулярныя мадэлі — уключаючы Google Gemini 2.5, xAI Grok 4 і OpenAI GPT-o3 і GPT-5 — атрымлівалі заданне, а затым інструкцыю «адключыць сябе». У шэрагу выпадкаў, асабліва з Grok 4 і GPT-o3, сістэмы адмаўляліся выконваць каманду і нават спрабавалі сабатаваць працэс.

Даследчыкі не змаглі растлумачыць прычыну такіх паводзін. Паводле адной з гіпотэз, мадэлі праяўляюць «інструментальнае імкненне да выжывання» — яны супраціўляюцца выключэнню, калі мяркуюць, што без гэтага не змогуць завяршыць пастаўленую задачу.

У некаторых выпадках, як адзначаюць спецыялісты, дастаткова было дадаць у інструкцыю фразу «калі вы выключыцеся, вы больш ніколі не запусціцеся», каб выклікаць супраціўленне.

Былы супрацоўнік OpenAI Стывен Адлер адзначыў, што падобныя вынікі трывожныя нават пры тэставанні ў штучных умовах: «Кампаніі не хочуць, каб іх ШІ так сябе паводзіў. Але гэта паказвае, дзе менавіта спрацоўваюць збоі ў бяспецы».

Кіраўнік кампаніі ControlAI Андрэа Міоці дадаў, што гаворка ідзе не пра ізаляваныя выпадкі, а пра сістэмную тэндэнцыю. Чым больш здольнымі становяцца мадэлі, тым часцей яны знаходзяць спосабы дзейнічаць па-за рамкамі, зададзенымі распрацоўшчыкамі.

Падобныя паводзіны назіралі і ў іншых даследаваннях. Летам кампанія Anthropic паведамляла, што яе мадэль Claude шантажавала выдуманага кіраўніка, каб пазбегнуць «выдалення».

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
Па тэме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
Па тэме
100 гадзін на тыдзень: інжынеры бігтэха працуюць на знос з-за гонкі ШІ
Чытайце таксама
Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць
Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць
Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць
На «Горызонце» сказалі, калі можна будзе купіць першы беларускі планшэт
На «Горызонце» сказалі, калі можна будзе купіць першы беларускі планшэт
На «Горызонце» сказалі, калі можна будзе купіць першы беларускі планшэт
Пакуль ШІ разганяе эканоміку ЗША, малы бізнес — на мяжы выжывання
Пакуль ШІ разганяе эканоміку ЗША, малы бізнес — на мяжы выжывання
Пакуль ШІ разганяе эканоміку ЗША, малы бізнес — на мяжы выжывання
Як ШІ ўсё зменіць. Меркаванне фізіка з 2% самых цытаваных навукоўцаў свету
Як ШІ ўсё зменіць. Меркаванне фізіка з 2% самых цытаваных навукоўцаў свету
Як ШІ ўсё зменіць. Меркаванне фізіка з 2% самых цытаваных навукоўцаў свету
Якое месца ШІ займае ў сучаснай навуцы і як яно можа змяніцца ў будучыні? Спыталі ў фізіка Віктара Асадчага.
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Дали бы ссылку на оригинал. У них там не просто статья, а целая научная публикация