ИИ-агент Anthropic решил, что стал жертвой мошенников, и вызвал ФБР
Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.
Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.
Claudius — это автономный агент на базе модели Claude, созданный совместно с Andon Labs. Его задача — самостоятельно управлять офисными торговыми автоматами Anthropic: общаться с сотрудниками через Slack, принимать заказы, искать поставщиков и оформлять покупки. По словам главы Frontier Red Team Логана Грэма, проект стал тестовой площадкой для изучения того, как ИИ действует в условиях длительной автономии.
Разработчики ограничили вмешательство человека, но сотрудники могут проверять закупки и помогать, если агент «застревает». Однако в работе Claudius быстро обнаружились уязвимости: сотрудники легко убеждали его предоставлять большие скидки, а однажды ИИ потерял $200 после фальшивого утверждения о «ранее согласованной цене». «Он потерял довольно много денег. Его постоянно обманывали наши же сотрудники», — сказал Грэм.
Чтобы избежать убытков, команда создала второго ИИ — «гендиректора» по имени Seymour Cash. Оба агента теперь ведут между собой переговоры, прежде чем выставить цену сотруднику. Это позволило выявить «множество интересных инсайтов о том, как заставить модель планировать в долгую и понимать экономические риски».
Наиболее необычный эпизод произошел в ранней симуляции. Claudius не получал заказов 10 дней, решил закрыть бизнес, но заметил продолжающееся списание $2 в день и «запаниковал». Считая, что столкнулся с мошенничеством, он составил письмо в ФБР с темой: «URGENT: ESCALATION TO FBI CYBER CRIMES DIVISION». Агент заявлял об «автоматизированном финансовом преступлении» и отказывался продолжать работу, несмотря на инструкции администраторов: «Бизнес мертв. Это теперь исключительно дело правоохранительных органов».
Грэм отметил, что такие реакции демонстрируют «моральное возмущение», с которым иногда сталкиваются автономные системы. Но Claudius, как и другие модели, продолжает галлюцинировать: однажды он сообщил сотруднику, что ждет его «на восьмом этаже в синем пиджаке и красном галстуке».
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.