17% скидка на размещение рекламы на площадках devby — до 20 ноября. Клац!
Support us

ИИ-агент Anthropic решил, что стал жертвой мошенников, и вызвал ФБР

Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.

Оставить комментарий
ИИ-агент Anthropic решил, что стал жертвой мошенников, и вызвал ФБР

Компания рассказала о необычном поведении своего экспериментального автономного агента Claudius, который в одном из тестов попытался обратиться в ФБР, решив, что стал жертвой кибермошенничества.

Claudius — это автономный агент на базе модели Claude, созданный совместно с Andon Labs. Его задача — самостоятельно управлять офисными торговыми автоматами Anthropic: общаться с сотрудниками через Slack, принимать заказы, искать поставщиков и оформлять покупки. По словам главы Frontier Red Team Логана Грэма, проект стал тестовой площадкой для изучения того, как ИИ действует в условиях длительной автономии.

Разработчики ограничили вмешательство человека, но сотрудники могут проверять закупки и помогать, если агент «застревает». Однако в работе Claudius быстро обнаружились уязвимости: сотрудники легко убеждали его предоставлять большие скидки, а однажды ИИ потерял $200 после фальшивого утверждения о «ранее согласованной цене». «Он потерял довольно много денег. Его постоянно обманывали наши же сотрудники», — сказал Грэм.

Чтобы избежать убытков, команда создала второго ИИ — «гендиректора» по имени Seymour Cash. Оба агента теперь ведут между собой переговоры, прежде чем выставить цену сотруднику. Это позволило выявить «множество интересных инсайтов о том, как заставить модель планировать в долгую и понимать экономические риски».

Наиболее необычный эпизод произошел в ранней симуляции. Claudius не получал заказов 10 дней, решил закрыть бизнес, но заметил продолжающееся списание $2 в день и «запаниковал». Считая, что столкнулся с мошенничеством, он составил письмо в ФБР с темой: «URGENT: ESCALATION TO FBI CYBER CRIMES DIVISION». Агент заявлял об «автоматизированном финансовом преступлении» и отказывался продолжать работу, несмотря на инструкции администраторов: «Бизнес мертв. Это теперь исключительно дело правоохранительных органов».

Грэм отметил, что такие реакции демонстрируют «моральное возмущение», с которым иногда сталкиваются автономные системы. Но Claudius, как и другие модели, продолжает галлюцинировать: однажды он сообщил сотруднику, что ждет его «на восьмом этаже в синем пиджаке и красном галстуке».

ИИ-агент Google может сам проходить игры на уровне геймеров
ИИ-агент Google может сам проходить игры на уровне геймеров
По теме
ИИ-агент Google может сам проходить игры на уровне геймеров
Менеджеры людей на выход: техкомпании готовят их замену
Менеджеры людей, на выход: техкомпании готовят их замену
По теме
Менеджеры людей, на выход: техкомпании готовят их замену
Как войти в ИИ: 16 реальных историй успеха
Как войти в ИИ: 16 реальных историй успеха
По теме
Как войти в ИИ: 16 реальных историй успеха
Читайте также
Джуны слишком зациклены на деталях при выборе работы — мнение «крестной матери ИИ»
Джуны слишком зациклены на деталях при выборе работы — мнение «крестной матери ИИ»
Джуны слишком зациклены на деталях при выборе работы — мнение «крестной матери ИИ»
Порог в 37% автоматизации рынка труда может обрушить зарплаты. Мы на 14%
Порог в 37% автоматизации рынка труда может обрушить зарплаты. Мы на 14%
Порог в 37% автоматизации рынка труда может обрушить зарплаты. Мы на 14%
Аналитики назвали отрасли, где ИИ чаще всего даёт отдачу
Аналитики назвали отрасли, где ИИ чаще всего даёт отдачу
Аналитики назвали отрасли, где ИИ чаще всего даёт отдачу
ИИ-агент Google может сам проходить игры на уровне геймеров
ИИ-агент Google может сам проходить игры на уровне геймеров
ИИ-агент Google может сам проходить игры на уровне геймеров

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.