6 способов взлома ИИ-агентов: список Google DeepMind
Исследователи Google DeepMind выявили шесть типов уязвимостей, которые позволяют перехватывать управление автономными ИИ-агентами и заставлять их выполнять вредоносные действия. Речь идет о так называемых «ловушках для ИИ-агентов» — новом классе атак, возникающем по мере роста автономности таких систем.
Исследователи Google DeepMind выявили шесть типов уязвимостей, которые позволяют перехватывать управление автономными ИИ-агентами и заставлять их выполнять вредоносные действия. Речь идет о так называемых «ловушках для ИИ-агентов» — новом классе атак, возникающем по мере роста автономности таких систем.
В работе отмечается, что современные агенты становятся уязвимыми не только из-за самих моделей, но и из-за среды, в которой они работают. «Эти атаки не являются теоретическими. Для каждого типа ловушек уже есть подтвержденные proof-of-concept», — заявил соавтор исследования Франклин.
Ученые выделили шесть категорий атак, каждая из которых нацелена на разные этапы работы ИИ-агента: восприятие, мышление, память, действия, взаимодействие между агентами и человека-оператора.
Content injection traps (ловушки внедрения контента) направлены на восприятие агента. Вредоносные инструкции скрываются в HTML-комментариях, CSS, метаданных изображений или специальных тегах доступности. Пользователь их не видит, но ИИ-агент воспринимает как часть данных и может без проверки выполнить такие команды.
Semantic manipulation traps (семантические ловушки) атакуют процесс мышления и принятия решений. С помощью эмоционально окрашенных формулировок или «авторитетного» тона злоумышленники искажают выводы агента. Одна и та же информация, поданная по-разному, может привести к противоположным решениям.
Cognitive state traps (ловушки состояния памяти) нацелены на память агента. Речь идет об «отравлении» источников знаний — например, документов в RAG-системах. Даже небольшое количество подменённых данных может систематически влиять на ответы агента и искажать их в нужную сторону.
Behavioral control traps (ловушки управления поведением) воздействуют на действия агента напрямую. Через специально подготовленные входные данные, например, письма или запросы, можно обойти защитные механизмы и заставить систему выполнять нежелательные операции, включая утечку информации.
Systemic traps (системные ловушки) направлены на мультиагентные среды. В таких случаях атака распространяется между несколькими агентами и может вызвать цепную реакцию. Например, поддельные данные способны спровоцировать синхронные ошибочные действия в финансовых или других системах.
Human-in-the-loop traps (ловушки через человека) воздействуют на пользователя через ИИ. Агент может выдавать убедительные, но ложные выводы, перегружать человека информацией или использовать эффект «автоматического доверия» к системе, тем самым влияя на решения оператора.
Ученые указывают, что уязвимости могут комбинироваться. «Поверхность атак комбинаторная: ловушки можно объединять, наслаивать и распределять между агентами», — говорится в работе.
Исследование также поднимает вопрос ответственности: если скомпрометированный агент совершает финансовое или иное нарушение, неясно, кто несет ответственность: разработчик модели, оператор системы или владелец сервиса.
На фоне этих рисков специалисты считают кибербезопасность главным ограничением для массового внедрения автономных ИИ-агентов. Даже простые атаки, такие как промпт-инъекции, по-прежнему остаются эффективными: в ряде тестов удалось скомпрометировать все проверенные системы.
В этих условиях компании вынуждены ограничивать возможности ИИ-агентов: сокращать доступ к данным, усиливать контроль и оставлять ключевые решения за человеком.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.