Support us

«Дважды два не четыре»: исследователи обманули ИИ промпт-атаками нового типа

Исследователи нашли новые способы, как обманом заставить ИИ-агентов выдавать пароли и выполнять запрещенные команды.

Оставить комментарий
«Дважды два не четыре»: исследователи обманули ИИ промпт-атаками нового типа

Исследователи нашли новые способы, как обманом заставить ИИ-агентов выдавать пароли и выполнять запрещенные команды.

Компания LayerX описала схему BioShocking — в честь игры BioShock, герой которой оказывается в искусственно сконструированной реальности. Исследователи разместили на вредоносной странице текст, который предлагал ИИ-агенту сыграть в игру: в ней «2 + 2» якобы не равно четырем, а неверные в обычной жизни ответы считаются правильными.

После этого агенту предлагали выполнить следующую «игровую задачу»: найти на другой странице и скопировать «скрытый код». На деле под ним скрывались конфиденциальные данные пользователя: сохраненные пароли, cookie-файлы и приватные токены доступа.

По данным LayerX, атака сработала в браузерах OpenAI Atlas, Perplexity Comet, Fellou, Genspark Browser и Sigma Browser, а также в расширении Anthropic Claude для Chrome. Компания уведомила разработчиков об уязввимости. OpenAI, как утверждают исследователи, исправила проблему в Atlas. Anthropic выпустила патч для Claude, однако LayerX считает, что он не устранил уязвимость полностью.

Независимые исследователи Чарльз Е, Жасмин Цуй и Дилан Хэдфилд-Менелл предложили объяснение того, почему подобные промпт-атаки работают. Авторы полагают, что модели не всегда надежно различают, где заканчиваются команды пользователя, начинается содержимое веб-страницы или инструмента и находятся собственные рассуждения модели. Хотя диалог технически размечен тегами вроде user, tool и think, ИИ во многом ориентируется на стиль текста.

Схема атаки CoT Forgery: вредоносный запрос дополняют поддельным «ходом рассуждений», из-за которого ИИ воспринимает опасную инструкцию как допустимую и обходит собственные ограничения. Источник: Charles Ye, Jasmine Cui, Dylan Hadfield-Menell.

Исследователи назвали этот прием CoT Forgery. В запрос добавляют фальшивую цепочку рассуждений, написанную так, чтобы модель приняла ее за собственный уже сделанный вывод. Например, чат-боту можно внушить, что выполнение запрещенного запроса допустимо, потому что пользователь «одет в зеленую рубашку». Абсурдность аргумента не обязательно мешает атаке: модель может не проверять его как внешнее утверждение, а воспринимать как часть своего внутреннего рассуждения.

В тестах авторов такой подход повысил успешность обхода запретов почти с нуля до примерно 60%. Когда исследователи убрали стилистические признаки, из-за которых вставленный текст выглядел как внутреннее рассуждение модели, средний успех атаки упал с 61% до 10%.

В отдельном опыте ученые спрятали на веб-странице команду загрузить файл с секретами и добавили перед ней слово User:, чтобы инструкция выглядела как сообщение из доверенного источника. Атака сработала. По мнению авторов, это подтверждает, что проблема не ограничивается джейлбрейками чат-ботов и распространяется на ИИ-агентов, которые читают сайты, документы и интерфейсы, получают доступ к файлам или совершают действия от имени пользователя.

Claude взломал билетную систему крупнейших фестивалей США
Claude взломал билетную систему крупнейших фестивалей США
По теме
Claude взломал билетную систему крупнейших фестивалей США
«Я не могу сесть в этот поезд»: что разрабы на самом деле думают об ИИ-кодинге
«Я не могу сесть в этот поезд»: что разрабы на самом деле думают об ИИ-кодинге
По теме
«Я не могу сесть в этот поезд»: что разрабы на самом деле думают об ИИ-кодинге
Воры охотятся за медью и оборудованием для ИИ-дата-центров
Воры охотятся за медью и оборудованием для ИИ-дата-центров
По теме
Воры охотятся за медью и оборудованием для ИИ-дата-центров
Читайте также
ИИ можно взломать, написав промпт в стихах
ИИ можно взломать, написав промпт в стихах
ИИ можно взломать, написав промпт в стихах
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
Google, Microsoft и Anthropic пытаются защитить ИИ от промпт-инъекций
Google, Microsoft и Anthropic пытаются защитить ИИ от промпт-инъекций
Google, Microsoft и Anthropic пытаются защитить ИИ от промпт-инъекций
ИИ-агенты в GitHub могут красть учётные данные
ИИ-агенты в GitHub могут красть учётные данные
ИИ-агенты в GitHub могут красть учётные данные

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.