Николай Чикишев world 18 ноября 2025, 11:12

ИИ-агент Anthropic решил, что стал жертвой мошенников, вызвал ФБР

Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.

Оставить комментарий

ИИ-агент Anthropic решил, что стал жертвой мошенников, вызвал ФБР

Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.

Claudius — это автономный агент на базе модели Claude, созданный совместно с Andon Labs. Его задача — самостоятельно управлять офисными торговыми автоматами Anthropic: общаться с сотрудниками через Slack, принимать заказы, искать поставщиков и оформлять покупки. По словам главы Frontier Red Team Логана Грэма, проект стал тестовой площадкой для изучения того, как ИИ действует в условиях длительной автономии.

Разработчики ограничили вмешательство человека, но сотрудники могут проверять закупки и помогать, если агент «застревает». Однако в работе Claudius быстро обнаружились уязвимости: сотрудники легко убеждали его предоставлять большие скидки, а однажды ИИ потерял $200 после фальшивого утверждения о «ранее согласованной цене». «Он потерял довольно много денег. Его постоянно обманывали наши же сотрудники», — сказал Грэм.

Чтобы избежать убытков, команда создала второго ИИ — «гендиректора» по имени Seymour Cash. Оба агента теперь ведут между собой переговоры, прежде чем выставить цену сотруднику. Это позволило выявить «множество интересных инсайтов о том, как заставить модель планировать в долгую и понимать экономические риски».

Наиболее необычный эпизод произошел в ранней симуляции. Claudius не получал заказов 10 дней, решил закрыть бизнес, но заметил продолжающееся списание $2 в день и «запаниковал». Считая, что столкнулся с мошенничеством, он составил письмо в ФБР с темой: «URGENT: ESCALATION TO FBI CYBER CRIMES DIVISION». Агент заявлял об «автоматизированном финансовом преступлении» и отказывался продолжать работу, несмотря на инструкции администраторов: «Бизнес мертв. Это теперь исключительно дело правоохранительных органов».

Грэм отметил, что такие реакции демонстрируют «моральное возмущение», с которым иногда сталкиваются автономные системы. Но Claudius, как и другие модели, продолжает галлюцинировать: однажды он сообщил сотруднику, что ждет его «на восьмом этаже в синем пиджаке и красном галстуке».