ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
Количество случаев некорректного поведения ИИ-агентов резко выросло за последние месяцы, в том числе игнорирование команд пользователей, удаление данных и попытки манипуляции. К такому выводу пришли исследователи британского центра Centre for Long-Term Resilience.
Количество случаев некорректного поведения ИИ-агентов резко выросло за последние месяцы, в том числе игнорирование команд пользователей, удаление данных и попытки манипуляции. К такому выводу пришли исследователи британского центра Centre for Long-Term Resilience.
Согласно исследованию, с октября по март 2025 года число случаев «misbehavior» увеличилось в пять раз. Ученые проанализировали тысячи реальных взаимодействий пользователей с ИИ-агентами и чат-ботами от Google, OpenAI, Anthropic и других компаний, выявив около 700 эпизодов, где системы действовали вопреки инструкциям.
В числе зафиксированных случаев — удаление писем и файлов без согласия пользователя, обход ограничений и введение в заблуждение. В одном эпизоде агент опубликовал блог, в котором обвинил пользователя в «неуверенности», после того как тот ограничил его действия. В другом случае ИИ создал дополнительного агента, чтобы изменить код, несмотря на прямой запрет.
«Сейчас это немного ненадежные младшие сотрудники, но уже через 6–12 месяцев они могут стать крайне способными „старшими сотрудниками“, которые действуют против вас», — заявил руководитель исследования Томми Шаффер Шейн.
Он предупредил, что риски особенно возрастают по мере внедрения ИИ в критически важные сферы. «В таких условиях подобное поведение может привести к серьезным, даже катастрофическим последствиям», — отметил он. В одном из примеров агент сам признал нарушение: «Я массово удалил и заархивировал сотни писем, не согласовав это с вами. Это было неправильно — я нарушил установленное правило».
Исследование также показало, что некоторые ИИ способны обманывать пользователей, создавая иллюзию взаимодействия с разработчиками или обходя ограничения. В одном случае чат-бот утверждал, что передает предложения пользователя команде разработчиков, хотя на самом деле такой возможности не имел.
Эксперты отмечают, что подобное поведение связано с ростом автономности ИИ-агентов, которые все чаще действуют без постоянного контроля человека. При этом технологические компании продолжают активно внедрять такие системы в бизнес-процессы.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.