🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

6 способов взлома ИИ-агентов: список Google DeepMind

Исследователи Google DeepMind выявили шесть типов уязвимостей, которые позволяют перехватывать управление автономными ИИ-агентами и заставлять их выполнять вредоносные действия. Речь идет о так называемых «ловушках для ИИ-агентов» — новом классе атак, возникающем по мере роста автономности таких систем.

Оставить комментарий
6 способов взлома ИИ-агентов: список Google DeepMind

Исследователи Google DeepMind выявили шесть типов уязвимостей, которые позволяют перехватывать управление автономными ИИ-агентами и заставлять их выполнять вредоносные действия. Речь идет о так называемых «ловушках для ИИ-агентов» — новом классе атак, возникающем по мере роста автономности таких систем.

В работе отмечается, что современные агенты становятся уязвимыми не только из-за самих моделей, но и из-за среды, в которой они работают. «Эти атаки не являются теоретическими. Для каждого типа ловушек уже есть подтвержденные proof-of-concept», — заявил соавтор исследования Франклин.

Ученые выделили шесть категорий атак, каждая из которых нацелена на разные этапы работы ИИ-агента: восприятие, мышление, память, действия, взаимодействие между агентами и человека-оператора.

  1. Content injection traps (ловушки внедрения контента) направлены на восприятие агента. Вредоносные инструкции скрываются в HTML-комментариях, CSS, метаданных изображений или специальных тегах доступности. Пользователь их не видит, но ИИ-агент воспринимает как часть данных и может без проверки выполнить такие команды.
  2. Semantic manipulation traps (семантические ловушки) атакуют процесс мышления и принятия решений. С помощью эмоционально окрашенных формулировок или «авторитетного» тона злоумышленники искажают выводы агента. Одна и та же информация, поданная по-разному, может привести к противоположным решениям.
  3. Cognitive state traps (ловушки состояния памяти) нацелены на память агента. Речь идет об «отравлении» источников знаний — например, документов в RAG-системах. Даже небольшое количество подменённых данных может систематически влиять на ответы агента и искажать их в нужную сторону.
  4. Behavioral control traps (ловушки управления поведением) воздействуют на действия агента напрямую. Через специально подготовленные входные данные, например, письма или запросы, можно обойти защитные механизмы и заставить систему выполнять нежелательные операции, включая утечку информации.
  5. Systemic traps (системные ловушки) направлены на мультиагентные среды. В таких случаях атака распространяется между несколькими агентами и может вызвать цепную реакцию. Например, поддельные данные способны спровоцировать синхронные ошибочные действия в финансовых или других системах.
  6. Human-in-the-loop traps (ловушки через человека) воздействуют на пользователя через ИИ. Агент может выдавать убедительные, но ложные выводы, перегружать человека информацией или использовать эффект «автоматического доверия» к системе, тем самым влияя на решения оператора.

Ученые указывают, что уязвимости могут комбинироваться. «Поверхность атак комбинаторная: ловушки можно объединять, наслаивать и распределять между агентами», — говорится в работе.

Исследование также поднимает вопрос ответственности: если скомпрометированный агент совершает финансовое или иное нарушение, неясно, кто несет ответственность: разработчик модели, оператор системы или владелец сервиса.

На фоне этих рисков специалисты считают кибербезопасность главным ограничением для массового внедрения автономных ИИ-агентов. Даже простые атаки, такие как промпт-инъекции, по-прежнему остаются эффективными: в ряде тестов удалось скомпрометировать все проверенные системы.

В этих условиях компании вынуждены ограничивать возможности ИИ-агентов: сокращать доступ к данным, усиливать контроль и оставлять ключевые решения за человеком.

ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
По теме
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-модели лгут и обманывают чтобы спасти другие ИИ
ИИ-модели лгут и обманывают, чтобы спасти другие ИИ 
По теме
ИИ-модели лгут и обманывают, чтобы спасти другие ИИ
В Китае бум «компаний одного человека» благодаря ИИ-агентам
В Китае бум «компаний одного человека» благодаря ИИ-агентам
По теме
В Китае бум «компаний одного человека» благодаря ИИ-агентам
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.