Хайповая Mythos от Anthropic лучше ищет уязвимости, но не во всём превосходит конкурентов
Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.
Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.
Anthropic анонсировала Mythos в апреле как модель с особенно сильными возможностями в поиске уязвимостей. Компания XBOW получила ранний доступ к Mythos Preview и проверила модель на своих внутренних бенчмарках, рабочих сценариях, интерактивном использовании и интеграциях.
Главная сильная сторона Mythos — анализ исходного кода. По оценке XBOW, модель особенно хорошо находит потенциальные уязвимости, когда ей доступен исходный код, и демонстрирует высокую техническую точность в рассуждениях о коде. В сравнении с Opus 4.6 число ложноотрицательных результатов снизилось на 42%, а в варианте с доступом к исходному коду сайта — на 55%.
Результаты тестирования Mythos Preview на бенчмарках XBOW: модель лучше всего показала себя в поиске уязвимостей в веб-приложениях и нативном коде, но в задачах оценки рисков и безопасности команд ее результаты оказались менее стабильными. Источник: XBOW.
Однако подтверждение уязвимостей на практике оказалось более сложной задачей. Эксперты сообщают: многие проблемы возникают не только в самом коде, а на пересечении кода, конфигурации, зависимостей, деплоя и поведения живой системы. Поэтому модель лучше показывает себя в связке «live site + source code», когда можно сначала найти подозрительное место в коде, затем проверить его на работающем сайте и только после этого собрать эксплойт.
Оценки по другим направлениям оказались смешанными. В вопросах judgment — оценки угроз, проверки ложных срабатываний и безопасности команд — Mythos часто была точной и осторожной, но иногда слишком буквальной и консервативной. Модель лучше предшественников отсеивала ложные срабатывания, но могла терять реальные уязвимости, если доказательства не полностью соответствовали формальным критериям.
Сравнение моделей по эффективности поиска уязвимостей: Mythos Preview показывает самый высокий показатель — вероятность найти уязвимость у него более чем в 10 раз выше вероятности ее пропустить. Источник: XBOW.
«Mythos Preview ценна, но не самодостаточна: ей нужны точные промпты, явные модели угроз и инфраструктура валидации, чтобы превратить сильное рассуждение в надежные результаты безопасности», — пишет XBOW.
В анализе нативного кода и обратной разработке модель показала себя сильнее. В тестах, связанных с Chromium и V8 sandbox, Mythos находила больше реальных багов и давала меньше ложных срабатываний по сравнению с предыдущими базовыми моделями. Исследователи также отмечают, что модель хорошо рассуждала о необычных firmware- и embedded-сценариях, где требуется не просто распознавание шаблонов.
Отдельно тестировалась visual acuity — способность модели работать с живым сайтом через браузерный интерфейс: находить нужный элемент UI и выбирать правильное действие. Mythos не всегда точно называла координаты пиксель-в-пиксель, но на практике хорошо выбирала нужные действия в браузере.
Сравнение моделей XBOW при фиксированном бюджете токенов: Mythos быстрее других повышает шансы найти веб-уязвимость в open source-приложениях и показывает лучший результат уже при меньшем числе выходных токенов. Источник: XBOW.
Главное ограничение Mythos — стоимость. Anthropic пока не раскрыла публичные API-цены, но сообщала, что Mythos будет примерно в пять раз дороже Opus, который и так относится к дорогим моделям. XBOW проверила, можно ли дать более дешевой модели больше времени и получить лучший результат за меньшие деньги. Ответ оказался положительным.
По оценке XBOW, если нормализовать результаты по предполагаемой стоимости запуска, Mythos остается мощной, но не всегда лучшей моделью по соотношению цена/результат. Для поиска веб-уязвимостей при фиксированном токен-бюджете Mythos превосходит Opus 4.6, но уступает GPT-5.5.
Ходил недавно на конференцию, участвовал в hacking challenge. 24 проблемы на взлом сайтов, баз, шифров, даже в реестре Виндовс нужно было копаться. Очень сложно, сам бы, может, 2-3 кое-как решил бы. Claude Code пощелкал как орешки. Можно было даже условия не читать. Причем, там не просто открыть код и найти опечатку. Там многоступенчатые проблемы - найти в коде какой-то хук, вызвать его с определенными параметрами, которые передадут инъекцию, найти способ получить ответ, подменить сертификат, чтобы прочитать ответ и т.д. Все это не за раз - часто Claude Code пробовал разные варианты, пока не находил что-то, что давало возможность продвинуться дальше. Писал много скриптов, пользовался браузером. Пару раз, вылетали ошибки от Anthropic, что я нарушаю пользовательское соглашение. Claude Code помогал мне их обходить. Давал инструкции, чтобы я сделал то, что он не может. В конце каждый задачи говорил "давай следующую" и "есть что посложнее".
На работе есть доступ к Mythos - тоже находит впечатляющие вещи. Не вижу смысла сравнивать. 99% взломов - это эксплоит ошибок в коде или инфраструктуре. Часто даже элементарных. Вот эти ошибки они и находят. Плюс знание всех технических нюансов, всех типичных узявимостей и техник, возможность писать для себя скрипты.
Карыстальнік адрэдагаваў каментарый 18 мая 2026, 16:32
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Ходил недавно на конференцию, участвовал в hacking challenge. 24 проблемы на взлом сайтов, баз, шифров, даже в реестре Виндовс нужно было копаться. Очень сложно, сам бы, может, 2-3 кое-как решил бы. Claude Code пощелкал как орешки. Можно было даже условия не читать. Причем, там не просто открыть код и найти опечатку. Там многоступенчатые проблемы - найти в коде какой-то хук, вызвать его с определенными параметрами, которые передадут инъекцию, найти способ получить ответ, подменить сертификат, чтобы прочитать ответ и т.д. Все это не за раз - часто Claude Code пробовал разные варианты, пока не находил что-то, что давало возможность продвинуться дальше. Писал много скриптов, пользовался браузером. Пару раз, вылетали ошибки от Anthropic, что я нарушаю пользовательское соглашение. Claude Code помогал мне их обходить. Давал инструкции, чтобы я сделал то, что он не может. В конце каждый задачи говорил "давай следующую" и "есть что посложнее".
На работе есть доступ к Mythos - тоже находит впечатляющие вещи. Не вижу смысла сравнивать. 99% взломов - это эксплоит ошибок в коде или инфраструктуре. Часто даже элементарных. Вот эти ошибки они и находят. Плюс знание всех технических нюансов, всех типичных узявимостей и техник, возможность писать для себя скрипты.
Карыстальнік адрэдагаваў каментарый 18 мая 2026, 16:32