«Дважды два не четыре»: исследователи обманули ИИ промпт-атаками нового типа
Исследователи нашли новые способы, как обманом заставить ИИ-агентов выдавать пароли и выполнять запрещенные команды.
Исследователи нашли новые способы, как обманом заставить ИИ-агентов выдавать пароли и выполнять запрещенные команды.
Исследователи нашли новые способы, как обманом заставить ИИ-агентов выдавать пароли и выполнять запрещенные команды.
Компания LayerX описала схему BioShocking — в честь игры BioShock, герой которой оказывается в искусственно сконструированной реальности. Исследователи разместили на вредоносной странице текст, который предлагал ИИ-агенту сыграть в игру: в ней «2 + 2» якобы не равно четырем, а неверные в обычной жизни ответы считаются правильными.
После этого агенту предлагали выполнить следующую «игровую задачу»: найти на другой странице и скопировать «скрытый код». На деле под ним скрывались конфиденциальные данные пользователя: сохраненные пароли, cookie-файлы и приватные токены доступа.
По данным LayerX, атака сработала в браузерах OpenAI Atlas, Perplexity Comet, Fellou, Genspark Browser и Sigma Browser, а также в расширении Anthropic Claude для Chrome. Компания уведомила разработчиков об уязввимости. OpenAI, как утверждают исследователи, исправила проблему в Atlas. Anthropic выпустила патч для Claude, однако LayerX считает, что он не устранил уязвимость полностью.
Независимые исследователи Чарльз Е, Жасмин Цуй и Дилан Хэдфилд-Менелл предложили объяснение того, почему подобные промпт-атаки работают. Авторы полагают, что модели не всегда надежно различают, где заканчиваются команды пользователя, начинается содержимое веб-страницы или инструмента и находятся собственные рассуждения модели. Хотя диалог технически размечен тегами вроде user, tool и think, ИИ во многом ориентируется на стиль текста.

Исследователи назвали этот прием CoT Forgery. В запрос добавляют фальшивую цепочку рассуждений, написанную так, чтобы модель приняла ее за собственный уже сделанный вывод. Например, чат-боту можно внушить, что выполнение запрещенного запроса допустимо, потому что пользователь «одет в зеленую рубашку». Абсурдность аргумента не обязательно мешает атаке: модель может не проверять его как внешнее утверждение, а воспринимать как часть своего внутреннего рассуждения.
В тестах авторов такой подход повысил успешность обхода запретов почти с нуля до примерно 60%. Когда исследователи убрали стилистические признаки, из-за которых вставленный текст выглядел как внутреннее рассуждение модели, средний успех атаки упал с 61% до 10%.
В отдельном опыте ученые спрятали на веб-странице команду загрузить файл с секретами и добавили перед ней слово User:, чтобы инструкция выглядела как сообщение из доверенного источника. Атака сработала. По мнению авторов, это подтверждает, что проблема не ограничивается джейлбрейками чат-ботов и распространяется на ИИ-агентов, которые читают сайты, документы и интерфейсы, получают доступ к файлам или совершают действия от имени пользователя.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.