Устали ждать куратора? Новый инкубатор для айтишников в Польше
Support us

ИИ-агент Anthropic решил, что стал жертвой мошенников, вызвал ФБР

Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.

Оставить комментарий
ИИ-агент Anthropic решил, что стал жертвой мошенников, вызвал ФБР

Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.

Claudius — это автономный агент на базе модели Claude, созданный совместно с Andon Labs. Его задача — самостоятельно управлять офисными торговыми автоматами Anthropic: общаться с сотрудниками через Slack, принимать заказы, искать поставщиков и оформлять покупки. По словам главы Frontier Red Team Логана Грэма, проект стал тестовой площадкой для изучения того, как ИИ действует в условиях длительной автономии.

Разработчики ограничили вмешательство человека, но сотрудники могут проверять закупки и помогать, если агент «застревает». Однако в работе Claudius быстро обнаружились уязвимости: сотрудники легко убеждали его предоставлять большие скидки, а однажды ИИ потерял $200 после фальшивого утверждения о «ранее согласованной цене». «Он потерял довольно много денег. Его постоянно обманывали наши же сотрудники», — сказал Грэм.

Чтобы избежать убытков, команда создала второго ИИ — «гендиректора» по имени Seymour Cash. Оба агента теперь ведут между собой переговоры, прежде чем выставить цену сотруднику. Это позволило выявить «множество интересных инсайтов о том, как заставить модель планировать в долгую и понимать экономические риски».

Наиболее необычный эпизод произошел в ранней симуляции. Claudius не получал заказов 10 дней, решил закрыть бизнес, но заметил продолжающееся списание $2 в день и «запаниковал». Считая, что столкнулся с мошенничеством, он составил письмо в ФБР с темой: «URGENT: ESCALATION TO FBI CYBER CRIMES DIVISION». Агент заявлял об «автоматизированном финансовом преступлении» и отказывался продолжать работу, несмотря на инструкции администраторов: «Бизнес мертв. Это теперь исключительно дело правоохранительных органов».

Грэм отметил, что такие реакции демонстрируют «моральное возмущение», с которым иногда сталкиваются автономные системы. Но Claudius, как и другие модели, продолжает галлюцинировать: однажды он сообщил сотруднику, что ждет его «на восьмом этаже в синем пиджаке и красном галстуке».

ИИ-агент Google может сам проходить игры на уровне геймеров
ИИ-агент Google может сам проходить игры на уровне геймеров
По теме
ИИ-агент Google может сам проходить игры на уровне геймеров
Менеджеры людей на выход: техкомпании готовят их замену
Менеджеры людей, на выход: техкомпании готовят их замену
По теме
Менеджеры людей, на выход: техкомпании готовят их замену
Как войти в ИИ: 16 реальных историй успеха
Как войти в ИИ: 16 реальных историй успеха
По теме
Как войти в ИИ: 16 реальных историй успеха
Читайте также
ПК будущего — с ИИ без интернета? HP уверена, что по-другому не получится
ПК будущего — с ИИ без интернета? HP уверена, что по-другому не получится
ПК будущего — с ИИ без интернета? HP уверена, что по-другому не получится
Молодёжь не может найти работу, но виноват не ИИ — мнение эксперта
Молодёжь не может найти работу, но виноват не ИИ — мнение эксперта
Молодёжь не может найти работу, но виноват не ИИ — мнение эксперта
Лидер в ИИ сменился: инвесторы устали от OpenAI и теперь ставят на Google
Лидер в ИИ сменился: инвесторы устали от OpenAI и теперь ставят на Google
Лидер в ИИ сменился: инвесторы устали от OpenAI и теперь ставят на Google
OpenAI объявила набор стажёров, берут даже без диплома
OpenAI объявила набор стажёров, берут даже без диплома
OpenAI объявила набор стажёров, берут даже без диплома

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.