Хайповая Mythos от Anthropic лучше ищет уязвимости, но не во всём превосходит конкурентов
Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.
Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.
Anthropic анонсировала Mythos в апреле как модель с особенно сильными возможностями в поиске уязвимостей. Компания XBOW получила ранний доступ к Mythos Preview и проверила модель на своих внутренних бенчмарках, рабочих сценариях, интерактивном использовании и интеграциях.
Главная сильная сторона Mythos — анализ исходного кода. По оценке XBOW, модель особенно хорошо находит потенциальные уязвимости, когда ей доступен исходный код, и демонстрирует высокую техническую точность в рассуждениях о коде. В сравнении с Opus 4.6 число ложноотрицательных результатов снизилось на 42%, а в варианте с доступом к исходному коду сайта — на 55%.
Результаты тестирования Mythos Preview на бенчмарках XBOW: модель лучше всего показала себя в поиске уязвимостей в веб-приложениях и нативном коде, но в задачах оценки рисков и безопасности команд ее результаты оказались менее стабильными. Источник: XBOW.
Однако подтверждение уязвимостей на практике оказалось более сложной задачей. Эксперты сообщают: многие проблемы возникают не только в самом коде, а на пересечении кода, конфигурации, зависимостей, деплоя и поведения живой системы. Поэтому модель лучше показывает себя в связке «live site + source code», когда можно сначала найти подозрительное место в коде, затем проверить его на работающем сайте и только после этого собрать эксплойт.
Оценки по другим направлениям оказались смешанными. В вопросах judgment — оценки угроз, проверки ложных срабатываний и безопасности команд — Mythos часто была точной и осторожной, но иногда слишком буквальной и консервативной. Модель лучше предшественников отсеивала ложные срабатывания, но могла терять реальные уязвимости, если доказательства не полностью соответствовали формальным критериям.
Сравнение моделей по эффективности поиска уязвимостей: Mythos Preview показывает самый высокий показатель — вероятность найти уязвимость у него более чем в 10 раз выше вероятности ее пропустить. Источник: XBOW.
«Mythos Preview ценна, но не самодостаточна: ей нужны точные промпты, явные модели угроз и инфраструктура валидации, чтобы превратить сильное рассуждение в надежные результаты безопасности», — пишет XBOW.
В анализе нативного кода и обратной разработке модель показала себя сильнее. В тестах, связанных с Chromium и V8 sandbox, Mythos находила больше реальных багов и давала меньше ложных срабатываний по сравнению с предыдущими базовыми моделями. Исследователи также отмечают, что модель хорошо рассуждала о необычных firmware- и embedded-сценариях, где требуется не просто распознавание шаблонов.
Отдельно тестировалась visual acuity — способность модели работать с живым сайтом через браузерный интерфейс: находить нужный элемент UI и выбирать правильное действие. Mythos не всегда точно называла координаты пиксель-в-пиксель, но на практике хорошо выбирала нужные действия в браузере.
Сравнение моделей XBOW при фиксированном бюджете токенов: Mythos быстрее других повышает шансы найти веб-уязвимость в open source-приложениях и показывает лучший результат уже при меньшем числе выходных токенов. Источник: XBOW.
Главное ограничение Mythos — стоимость. Anthropic пока не раскрыла публичные API-цены, но сообщала, что Mythos будет примерно в пять раз дороже Opus, который и так относится к дорогим моделям. XBOW проверила, можно ли дать более дешевой модели больше времени и получить лучший результат за меньшие деньги. Ответ оказался положительным.
По оценке XBOW, если нормализовать результаты по предполагаемой стоимости запуска, Mythos остается мощной, но не всегда лучшей моделью по соотношению цена/результат. Для поиска веб-уязвимостей при фиксированном токен-бюджете Mythos превосходит Opus 4.6, но уступает GPT-5.5.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.