Николай Чикишев world 4 красавіка 2026, 12:10

6 спосабаў узлому ШІ-агентаў: спіс Google DeepMind

Даследчыкі Google DeepMind выявілі шэсць тыпаў уразлівасцяў, якія дазваляюць перахопліваць кіраванне аўтаномнымі ШІ-агентамі і прымушаць іх выконваць шкоданосныя дзеянні. Гаворка ідзе пра так званыя «пасткі для ШІ-агентаў» — новы клас атак, які ўзнікае па меры росту аўтаномнасці такіх сістэм.

Пакінуць каментарый

6 спосабаў узлому ШІ-агентаў: спіс Google DeepMind

Даследчыкі Google DeepMind выявілі шэсць тыпаў уразлівасцяў, якія дазваляюць перахопліваць кіраванне аўтаномнымі ШІ-агентамі і прымушаць іх выконваць шкоданосныя дзеянні. Гаворка ідзе пра так званыя «пасткі для ШІ-агентаў» — новы клас атак, які ўзнікае па меры росту аўтаномнасці такіх сістэм.

У працы адзначаецца, што сучасныя агенты становяцца ўразлівымі не толькі праз самыя мадэлі, але і праз асяроддзе, у якім яны працуюць. «Гэтыя атакі не з’яўляюцца тэарэтычнымі. Для кожнага тыпу пастак ужо ёсць пацверджаныя proof-of-concept», — заявіў суаўтар даследавання Франклін.

Навукоўцы вылучылі шэсць катэгорый атак, кожная з якіх нацэлена на розныя этапы працы ШІ-агента: успрыманне, мысленне, памяць, дзеянні, узаемадзеянне паміж агентамі і чалавека-аператара.

Content injection traps (пасткі ўкаранення кантэнту) накіраваныя на успрыманне агента. Шкоданосныя інструкцыі хаваюцца ў HTML-каментарыях, CSS, метаданых выяваў ці спецыяльных тэгах даступнасці. Карыстальнік іх не бачыць, але ШІ-агент успрымае як частку дадзеных і можа без праверкі выканаць такія каманды.
Semantic manipulation traps (семантычныя пасткі) атакуюць працэс мыслення і прыняцця рашэнняў. З дапамогай эмацыйна афарбаваных фармулёвак ці «аўтарытэтнага» тону зламыснікі скажаюць высновы агента. Адна і тая ж інфармацыя, пададзеная па-рознаму, можа прывесці да супрацьлеглых рашэнняў.
Cognitive state traps (пасткі стану памяці) нацэлены на памяць агента. Гаворка ідзе пра «атручванне» крыніц ведаў — напрыклад, дакументаў у RAG-сістэмах. Нават невялікая колькасць падмененых дадзеных можа сістэматычна ўплываць на адказы агента і скажаць іх у патрэбны бок.
Behavioral control traps (пасткі кіравання паводзінамі) уздзейнічаюць на дзеянні агента напрамую. Праз спецыяльна падрыхтаваныя ўваходныя дадзеныя, напрыклад, лісты ці запыты, можна абысці ахоўныя механізмы і прымусіць сістэму выконваць непажаданыя аперацыі, уключаючы ўцечку інфармацыі.
Systemic traps (сістэмныя пасткі) накіраваны на мультыагентныя асяроддзі. У такіх выпадках атака распаўсюджваецца паміж некалькімі агентамі і можа выклікаць ланцуговую рэакцыю. Напрыклад, падробленыя дадзеныя здольныя справакаваць сінхронныя памылковыя дзеянні ў фінансавых ці іншых сістэмах.
Human-in-the-loop traps (пасткі праз чалавека) уздзейнічаюць на карыстальніка праз ШІ. Агент можа выдаваць пераканаўчыя, але фальшывыя высновы, перагружаць чалавека інфармацыяй ці выкарыстоўваць эфект «аўтаматычнага даверу» да сістэмы, тым самым уплываючы на рашэнні аператара.

Навукоўцы ўказваюць, што ўразлівасці могуць камбінавацца. «Паверхня атак камбінаторная: пасткі можна аб’ядноўваць, наслойваць і размяркоўваць паміж агентамі», — гаворыцца ў працы.

Даследаванне таксама падымае пытанне адказнасці: калі скампраметаваны агент робіць фінансавае ці іншае парушэнне, незразумела, хто нясе адказнасць: распрацоўшчык мадэлі, аператар сістэмы ці ўладальнік сэрвіса.

На фоне гэтых рызык спецыялісты лічаць кібербяспеку галоўным абмежаваннем для масавага ўкаранення аўтаномных ШІ-агентаў. Нават простыя атакі, такія як промпт-ін’екцыі, па-ранейшаму застаюцца эфектыўнымі: у шэрагу тэстаў удалося скампраметаваць усе праверанныя сістэмы.

У гэтых умовах кампаніі вымушаны абмяжоўваць магчымасці ШІ-агентаў: скарачаць доступ да дадзеных, узмацняць кантроль і пакідаць ключавыя рашэнні за чалавекам.