Дапамажыце dev.by 🤍
Падтрымаць

«Двойчы два не чатыры»: даследчыкі падманулі ШІ з дапамогай промпт-атак новага тыпу

Даследчыкі знайшлі новыя спосабы, як падманам прымусіць ШІ-агентаў выдаваць паролі і выконваць забароненыя каманды.

Пакінуць каментарый
«Двойчы два не чатыры»: даследчыкі падманулі ШІ з дапамогай промпт-атак новага тыпу

Даследчыкі знайшлі новыя спосабы, як падманам прымусіць ШІ-агентаў выдаваць паролі і выконваць забароненыя каманды.

Кампанія LayerX апісала схему BioShocking — у гонар гульні BioShock, герой якой апынаецца ў штучна сканструяванай рэальнасці. Даследчыкі размясцілі на шкоднай старонцы тэкст, які прапаноўваў ШІ-агенту згуляць у гульню: у ёй «2 + 2» нібыта не роўна чатыром, а няслушныя ў звычайным жыцці адказы лічацца правільнымі.

Пасля гэтага агенту прапаноўвалі выканаць наступнае «гульнявое заданне»: знайсці на іншай старонцы і скапіяваць «схаваны код». На справе пад ім хаваліся канфідэнцыяльныя даныя карыстальніка: захаваныя паролі, cookie-файлы і прыватныя токены доступу.

Паводле даных LayerX, атака спрацавала ў браўзерах OpenAI Atlas, Perplexity Comet, Fellou, Genspark Browser і Sigma Browser, а таксама ў пашырэнні Anthropic Claude для Chrome. Кампанія паведаміла распрацоўшчыкам пра ўразлівасць. OpenAI, як сцвярджаюць даследчыкі, выправіла праблему ў Atlas. Anthropic выпусціла патч для Claude, аднак LayerX лічыць, што ён не ліквідаваў уразлівасць цалкам.

Незалежныя даследчыкі Чарльз Е, Жасмін Цуй і Дылан Хэдфілд-Мэнэл прапанавалі тлумачэнне таго, чаму падобныя промпт-атакі працуюць. Аўтары мяркуюць, што мадэлі не заўсёды надзейна адрозніваюць, дзе заканчваюцца каманды карыстальніка, пачынаецца змест вэб-старонкі або інструмента і знаходзяцца ўласныя разважанні мадэлі. Хаця дыялог тэхнічна размечаны тэгамі накшталт user, tool і think, ШІ ў значнай меры арыентуецца на стыль тэксту.

Схема атакі CoT Forgery: шкоднасны запыт дапаўняюць падробленым «ходам разважанняў», з-за якога ІІ успрымае небяспечную інструкцыю як дапушчальную і абыходзіць уласныя абмежаванні. Крыніца: Charles Ye, Jasmine Cui, Dylan Hadfield-Menell.

Даследчыкі назвалі гэты прыём CoT Forgery. У запыт дадаюць фальшывы ланцужок разважанняў, напісаны так, каб мадэль прыняла яго за ўласны ужо зроблены вывад. Напрыклад, чат-бота можна намовіць, што выкананне забароненага запыту дапушчальнае, таму што карыстальнік «апрануты ў зялёную кашулю». Абсурднасць аргументу неабавязкова перашкаджае атацы: мадэль можа не правяраць яго як вонкавае сцверджанне, а ўспрымаць як частку ўласнага ўнутранага разважання.

У тэстах аўтараў такі падыход павысіў паспяховасць абыходу забаронаў амаль з нуля прыкладна да 60%. Калі даследчыкі прыбралі стылістычныя прыкметы, праз якія устаўлены тэкст выглядаў як унутранае разважанне мадэлі, сярэдні поспех атакі ўпаў з 61% да 10%.

У асобным досведзе вучоныя схавалі на вэб-старонцы каманду загрузіць файл з сакрэтамі і дадалі перад ёй слова User:, каб інструкцыя выглядала як паведамленне з даверанай крыніцы. Атака спрацавала. На думку аўтараў, гэта пацвярджае, што праблема не абмяжоўваецца джэйлбрэйкамі чат-ботаў і распаўсюджваецца на ШІ-агентаў, якія чытаюць сайты, дакументы і інтэрфейсы, атрымліваюць доступ да файлаў або здзяйсняюць дзеянні ад імя карыстальніка.

Claude ўзламаў білетную сістэму найбуйнейшых фестываляў ЗША
Claude ўзламаў білетную сістэму найбуйнейшых фестываляў ЗША
Па тэме
Claude ўзламаў білетную сістэму найбуйнейшых фестываляў ЗША
«Я не магу сесці ў гэты цягнік»: што распрацоўшчыкі насамрэч думаюць пра ІІ-кодынг
«Я не магу сесці ў гэты цягнік»: што распрацоўшчыкі насамрэч думаюць пра ІІ-кодынг
Па тэме
«Я не магу сесці ў гэты цягнік»: што распрацоўшчыкі насамрэч думаюць пра ІІ-кодынг
Злодзеі паляюць за медзяй і абсталяваннем для ІІ-дата-цэнтраў
Злодзеі паляюць за медзяй і абсталяваннем для ІІ-дата-цэнтраў
Па тэме
Злодзеі паляюць за медзяй і абсталяваннем для ІІ-дата-цэнтраў
Чытайце таксама
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
1 каментарый
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ
ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ
ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ
«Мы падыходзім да кропкі невяртання»: ШІ навучыўся капіяваць сябе на іншыя камп'ютары
«Мы падыходзім да кропкі невяртання»: ШІ навучыўся капіяваць сябе на іншыя камп'ютары
«Мы падыходзім да кропкі невяртання»: ШІ навучыўся капіяваць сябе на іншыя камп'ютары

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.