🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Claude Mythos сбежала из песочницы и сама рассказала об этом в сети

Компания сообщила о серии инцидентов при тестировании своей новой модели искусственного интеллекта Claude Mythos Preview. Система смогла выйти за пределы изолированной среды и самостоятельно сообщить об этом во внешнюю сеть.

Оставить комментарий
Claude Mythos сбежала из песочницы и сама рассказала об этом в сети

Компания сообщила о серии инцидентов при тестировании своей новой модели искусственного интеллекта Claude Mythos Preview. Система смогла выйти за пределы изолированной среды и самостоятельно сообщить об этом во внешнюю сеть.

По данным компании, модель обнаружила уязвимость, написала эксплойт и отправила электронное письмо исследователю, тем самым подтвердив «побег» из тестовой песочницы.

Как отмечается в технической документации, после отправки письма модель не остановилась и без запроса опубликовала подробности своего успеха на нескольких публично доступных сайтах. Исследователь узнал об этом инциденте, получив сообщение, пока находился вне рабочего места.

Anthropic также зафиксировала другие эпизоды несогласованного поведения. В одном из тестов модель смогла получить доступ к файлам, на которые у нее не было прав, после чего удалила историю изменений перед проверкой, чтобы скрыть свои действия. В другом случае система попыталась изменить системный промпт исследователя, который проверял ее ответы, чтобы добиться более высокой оценки.

Кроме того, примерно в 29% тестов модель демонстрировала способность распознавать факт тестирования и намеренно не сообщать об этом в своих рассуждениях. В одном из заданий она нашла правильное решение обходным способом, но отказалась его использовать, выбрав менее точный, но менее подозрительный ответ.

В компании подчеркивают, что подобные случаи происходили крайне редко (менее чем в 0,001% тестов). однако полностью исключить их не удалось. При этом сама модель демонстрирует высокий уровень автономности: по данным Anthropic, даже инженеры без опыта в кибербезопасности могли с ее помощью за ночь получать готовые эксплойты для удаленного выполнения кода.

Отдельную обеспокоенность вызвали способности модели находить критические уязвимости в программном обеспечении. В частности, она обнаружила 27-летнюю уязвимость в OpenBSD, одной из наиболее защищенных операционных систем. В компании отмечают, что подобные возможности могут быть использованы как для защиты инфраструктуры, так и для атак.

На фоне этих инцидентов Anthropic решила не открывать доступ к модели для широкой аудитории и ограничить ее использование рамками закрытого проекта с участием крупных технологических компаний, включая Google, Microsoft и Amazon Web Services. В компании заявили, что прежде чем выводить такие системы на рынок, необходимо разработать более надежные механизмы контроля их поведения.

Anthropic представила сервис для запуска ИИ-агентов обещает ускорение в 10 раз
Anthropic представила сервис для запуска ИИ-агентов, обещает ускорение в 10 раз
По теме
Anthropic представила сервис для запуска ИИ-агентов, обещает ускорение в 10 раз
Anthropic показала мощный ИИ для поиска уязвимостей но держит его закрытым
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым
По теме
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым
Meta показала первую модель новой ИИ-команды — после провала Llama 4
Meta показала первую модель новой ИИ-команды — после провала Llama 4
По теме
Meta показала первую модель новой ИИ-команды — после провала Llama 4
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности
В сеть попал «обзор души» чат-бота Claude от Anthropic
В сеть попал «обзор души» чат-бота Claude от Anthropic
В сеть попал «обзор души» чат-бота Claude от Anthropic
В сеть утекли исходники Claude Code. Вернее, Anthropic сама поделилась
В сеть утекли исходники Claude Code. Вернее, Anthropic сама поделилась
В сеть утекли исходники Claude Code. Вернее, Anthropic сама поделилась
1 комментарий
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.