Николай Чикишев world 2 ліпеня 2026, 14:42

«Двойчы два не чатыры»: даследчыкі падманулі ШІ з дапамогай промпт-атак новага тыпу

Даследчыкі знайшлі новыя спосабы, як падманам прымусіць ШІ-агентаў выдаваць паролі і выконваць забароненыя каманды.

Кампанія LayerX апісала схему BioShocking — у гонар гульні BioShock, герой якой апынаецца ў штучна сканструяванай рэальнасці. Даследчыкі размясцілі на шкоднай старонцы тэкст, які прапаноўваў ШІ-агенту згуляць у гульню: у ёй «2 + 2» нібыта не роўна чатыром, а няслушныя ў звычайным жыцці адказы лічацца правільнымі.

Пасля гэтага агенту прапаноўвалі выканаць наступнае «гульнявое заданне»: знайсці на іншай старонцы і скапіяваць «схаваны код». На справе пад ім хаваліся канфідэнцыяльныя даныя карыстальніка: захаваныя паролі, cookie-файлы і прыватныя токены доступу.

Паводле даных LayerX, атака спрацавала ў браўзерах OpenAI Atlas, Perplexity Comet, Fellou, Genspark Browser і Sigma Browser, а таксама ў пашырэнні Anthropic Claude для Chrome. Кампанія паведаміла распрацоўшчыкам пра ўразлівасць. OpenAI, як сцвярджаюць даследчыкі, выправіла праблему ў Atlas. Anthropic выпусціла патч для Claude, аднак LayerX лічыць, што ён не ліквідаваў уразлівасць цалкам.

Незалежныя даследчыкі Чарльз Е, Жасмін Цуй і Дылан Хэдфілд-Мэнэл прапанавалі тлумачэнне таго, чаму падобныя промпт-атакі працуюць. Аўтары мяркуюць, што мадэлі не заўсёды надзейна адрозніваюць, дзе заканчваюцца каманды карыстальніка, пачынаецца змест вэб-старонкі або інструмента і знаходзяцца ўласныя разважанні мадэлі. Хаця дыялог тэхнічна размечаны тэгамі накшталт user, tool і think, ШІ ў значнай меры арыентуецца на стыль тэксту.

Схема атакі CoT Forgery: шкоднасны запыт дапаўняюць падробленым «ходам разважанняў», з-за якога ІІ успрымае небяспечную інструкцыю як дапушчальную і абыходзіць уласныя абмежаванні. Крыніца: Charles Ye, Jasmine Cui, Dylan Hadfield-Menell.

Даследчыкі назвалі гэты прыём CoT Forgery. У запыт дадаюць фальшывы ланцужок разважанняў, напісаны так, каб мадэль прыняла яго за ўласны ужо зроблены вывад. Напрыклад, чат-бота можна намовіць, што выкананне забароненага запыту дапушчальнае, таму што карыстальнік «апрануты ў зялёную кашулю». Абсурднасць аргументу неабавязкова перашкаджае атацы: мадэль можа не правяраць яго як вонкавае сцверджанне, а ўспрымаць як частку ўласнага ўнутранага разважання.

У тэстах аўтараў такі падыход павысіў паспяховасць абыходу забаронаў амаль з нуля прыкладна да 60%. Калі даследчыкі прыбралі стылістычныя прыкметы, праз якія устаўлены тэкст выглядаў як унутранае разважанне мадэлі, сярэдні поспех атакі ўпаў з 61% да 10%.

У асобным досведзе вучоныя схавалі на вэб-старонцы каманду загрузіць файл з сакрэтамі і дадалі перад ёй слова User:, каб інструкцыя выглядала як паведамленне з даверанай крыніцы. Атака спрацавала. На думку аўтараў, гэта пацвярджае, што праблема не абмяжоўваецца джэйлбрэйкамі чат-ботаў і распаўсюджваецца на ШІ-агентаў, якія чытаюць сайты, дакументы і інтэрфейсы, атрымліваюць доступ да файлаў або здзяйсняюць дзеянні ад імя карыстальніка.