«Двойчы два не чатыры»: даследчыкі падманулі ШІ з дапамогай промпт-атак новага тыпу
Даследчыкі знайшлі новыя спосабы, як падманам прымусіць ШІ-агентаў выдаваць паролі і выконваць забароненыя каманды.
Даследчыкі знайшлі новыя спосабы, як падманам прымусіць ШІ-агентаў выдаваць паролі і выконваць забароненыя каманды.
Даследчыкі знайшлі новыя спосабы, як падманам прымусіць ШІ-агентаў выдаваць паролі і выконваць забароненыя каманды.
Кампанія LayerX апісала схему BioShocking — у гонар гульні BioShock, герой якой апынаецца ў штучна сканструяванай рэальнасці. Даследчыкі размясцілі на шкоднай старонцы тэкст, які прапаноўваў ШІ-агенту згуляць у гульню: у ёй «2 + 2» нібыта не роўна чатыром, а няслушныя ў звычайным жыцці адказы лічацца правільнымі.
Пасля гэтага агенту прапаноўвалі выканаць наступнае «гульнявое заданне»: знайсці на іншай старонцы і скапіяваць «схаваны код». На справе пад ім хаваліся канфідэнцыяльныя даныя карыстальніка: захаваныя паролі, cookie-файлы і прыватныя токены доступу.
Паводле даных LayerX, атака спрацавала ў браўзерах OpenAI Atlas, Perplexity Comet, Fellou, Genspark Browser і Sigma Browser, а таксама ў пашырэнні Anthropic Claude для Chrome. Кампанія паведаміла распрацоўшчыкам пра ўразлівасць. OpenAI, як сцвярджаюць даследчыкі, выправіла праблему ў Atlas. Anthropic выпусціла патч для Claude, аднак LayerX лічыць, што ён не ліквідаваў уразлівасць цалкам.
Незалежныя даследчыкі Чарльз Е, Жасмін Цуй і Дылан Хэдфілд-Мэнэл прапанавалі тлумачэнне таго, чаму падобныя промпт-атакі працуюць. Аўтары мяркуюць, што мадэлі не заўсёды надзейна адрозніваюць, дзе заканчваюцца каманды карыстальніка, пачынаецца змест вэб-старонкі або інструмента і знаходзяцца ўласныя разважанні мадэлі. Хаця дыялог тэхнічна размечаны тэгамі накшталт user, tool і think, ШІ ў значнай меры арыентуецца на стыль тэксту.

Даследчыкі назвалі гэты прыём CoT Forgery. У запыт дадаюць фальшывы ланцужок разважанняў, напісаны так, каб мадэль прыняла яго за ўласны ужо зроблены вывад. Напрыклад, чат-бота можна намовіць, што выкананне забароненага запыту дапушчальнае, таму што карыстальнік «апрануты ў зялёную кашулю». Абсурднасць аргументу неабавязкова перашкаджае атацы: мадэль можа не правяраць яго як вонкавае сцверджанне, а ўспрымаць як частку ўласнага ўнутранага разважання.
У тэстах аўтараў такі падыход павысіў паспяховасць абыходу забаронаў амаль з нуля прыкладна да 60%. Калі даследчыкі прыбралі стылістычныя прыкметы, праз якія устаўлены тэкст выглядаў як унутранае разважанне мадэлі, сярэдні поспех атакі ўпаў з 61% да 10%.
У асобным досведзе вучоныя схавалі на вэб-старонцы каманду загрузіць файл з сакрэтамі і дадалі перад ёй слова User:, каб інструкцыя выглядала як паведамленне з даверанай крыніцы. Атака спрацавала. На думку аўтараў, гэта пацвярджае, што праблема не абмяжоўваецца джэйлбрэйкамі чат-ботаў і распаўсюджваецца на ШІ-агентаў, якія чытаюць сайты, дакументы і інтэрфейсы, атрымліваюць доступ да файлаў або здзяйсняюць дзеянні ад імя карыстальніка.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.