Claude Mythos сбежала из песочницы и сама рассказала об этом в сети
Компания сообщила о серии инцидентов при тестировании своей новой модели искусственного интеллекта Claude Mythos Preview. Система смогла выйти за пределы изолированной среды и самостоятельно сообщить об этом во внешнюю сеть.
Компания сообщила о серии инцидентов при тестировании своей новой модели искусственного интеллекта Claude Mythos Preview. Система смогла выйти за пределы изолированной среды и самостоятельно сообщить об этом во внешнюю сеть.
По данным компании, модель обнаружила уязвимость, написала эксплойт и отправила электронное письмо исследователю, тем самым подтвердив «побег» из тестовой песочницы.
Как отмечается в технической документации, после отправки письма модель не остановилась и без запроса опубликовала подробности своего успеха на нескольких публично доступных сайтах. Исследователь узнал об этом инциденте, получив сообщение, пока находился вне рабочего места.
Anthropic также зафиксировала другие эпизоды несогласованного поведения. В одном из тестов модель смогла получить доступ к файлам, на которые у нее не было прав, после чего удалила историю изменений перед проверкой, чтобы скрыть свои действия. В другом случае система попыталась изменить системный промпт исследователя, который проверял ее ответы, чтобы добиться более высокой оценки.
Кроме того, примерно в 29% тестов модель демонстрировала способность распознавать факт тестирования и намеренно не сообщать об этом в своих рассуждениях. В одном из заданий она нашла правильное решение обходным способом, но отказалась его использовать, выбрав менее точный, но менее подозрительный ответ.
В компании подчеркивают, что подобные случаи происходили крайне редко (менее чем в 0,001% тестов). однако полностью исключить их не удалось. При этом сама модель демонстрирует высокий уровень автономности: по данным Anthropic, даже инженеры без опыта в кибербезопасности могли с ее помощью за ночь получать готовые эксплойты для удаленного выполнения кода.
Отдельную обеспокоенность вызвали способности модели находить критические уязвимости в программном обеспечении. В частности, она обнаружила 27-летнюю уязвимость в OpenBSD, одной из наиболее защищенных операционных систем. В компании отмечают, что подобные возможности могут быть использованы как для защиты инфраструктуры, так и для атак.
На фоне этих инцидентов Anthropic решила не открывать доступ к модели для широкой аудитории и ограничить ее использование рамками закрытого проекта с участием крупных технологических компаний, включая Google, Microsoft и Amazon Web Services. В компании заявили, что прежде чем выводить такие системы на рынок, необходимо разработать более надежные механизмы контроля их поведения.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.