Support us

Хайповая Mythos от Anthropic лучше ищет уязвимости, но не во всём превосходит конкурентов

Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.

Оставить комментарий
Хайповая Mythos от Anthropic лучше ищет уязвимости, но не во всём превосходит конкурентов

Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.

Anthropic анонсировала Mythos в апреле как модель с особенно сильными возможностями в поиске уязвимостей. Компания XBOW получила ранний доступ к Mythos Preview и проверила модель на своих внутренних бенчмарках, рабочих сценариях, интерактивном использовании и интеграциях.

Главная сильная сторона Mythos — анализ исходного кода. По оценке XBOW, модель особенно хорошо находит потенциальные уязвимости, когда ей доступен исходный код, и демонстрирует высокую техническую точность в рассуждениях о коде. В сравнении с Opus 4.6 число ложноотрицательных результатов снизилось на 42%, а в варианте с доступом к исходному коду сайта — на 55%.

Результаты тестирования Mythos Preview на бенчмарках XBOW: модель лучше всего показала себя в поиске уязвимостей в веб-приложениях и нативном коде, но в задачах оценки рисков и безопасности команд ее результаты оказались менее стабильными. Источник: XBOW.

Однако подтверждение уязвимостей на практике оказалось более сложной задачей. Эксперты сообщают: многие проблемы возникают не только в самом коде, а на пересечении кода, конфигурации, зависимостей, деплоя и поведения живой системы. Поэтому модель лучше показывает себя в связке «live site + source code», когда можно сначала найти подозрительное место в коде, затем проверить его на работающем сайте и только после этого собрать эксплойт.

Оценки по другим направлениям оказались смешанными. В вопросах judgment — оценки угроз, проверки ложных срабатываний и безопасности команд — Mythos часто была точной и осторожной, но иногда слишком буквальной и консервативной. Модель лучше предшественников отсеивала ложные срабатывания, но могла терять реальные уязвимости, если доказательства не полностью соответствовали формальным критериям.

Сравнение моделей по эффективности поиска уязвимостей: Mythos Preview показывает самый высокий показатель — вероятность найти уязвимость у него более чем в 10 раз выше вероятности ее пропустить. Источник: XBOW.

«Mythos Preview ценна, но не самодостаточна: ей нужны точные промпты, явные модели угроз и инфраструктура валидации, чтобы превратить сильное рассуждение в надежные результаты безопасности», — пишет XBOW.

В анализе нативного кода и обратной разработке модель показала себя сильнее. В тестах, связанных с Chromium и V8 sandbox, Mythos находила больше реальных багов и давала меньше ложных срабатываний по сравнению с предыдущими базовыми моделями. Исследователи также отмечают, что модель хорошо рассуждала о необычных firmware- и embedded-сценариях, где требуется не просто распознавание шаблонов.

Отдельно тестировалась visual acuity — способность модели работать с живым сайтом через браузерный интерфейс: находить нужный элемент UI и выбирать правильное действие. Mythos не всегда точно называла координаты пиксель-в-пиксель, но на практике хорошо выбирала нужные действия в браузере.

Сравнение моделей XBOW при фиксированном бюджете токенов: Mythos быстрее других повышает шансы найти веб-уязвимость в open source-приложениях и показывает лучший результат уже при меньшем числе выходных токенов. Источник: XBOW.

Главное ограничение Mythos — стоимость. Anthropic пока не раскрыла публичные API-цены, но сообщала, что Mythos будет примерно в пять раз дороже Opus, который и так относится к дорогим моделям. XBOW проверила, можно ли дать более дешевой модели больше времени и получить лучший результат за меньшие деньги. Ответ оказался положительным.

По оценке XBOW, если нормализовать результаты по предполагаемой стоимости запуска, Mythos остается мощной, но не всегда лучшей моделью по соотношению цена/результат. Для поиска веб-уязвимостей при фиксированном токен-бюджете Mythos превосходит Opus 4.6, но уступает GPT-5.5.

OpenAI запустила Daybreak — свой ответ на Claude Mythos от Anthropic
OpenAI запустила Daybreak — свой ответ на Claude Mythos от Anthropic
По теме
OpenAI запустила Daybreak — свой ответ на Claude Mythos от Anthropic
603 млрд токенов за месяц: создатель OpenClaw потратил $13 млн на Codex
603 млрд токенов за месяц: создатель OpenClaw потратил $1,3 млн на Codex
По теме
603 млрд токенов за месяц: создатель OpenClaw потратил $1,3 млн на Codex
Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic
Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic
По теме
Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic
Читайте также
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым
Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым
OpenAI представила свою кибербез-модель после релиза Anthropic
OpenAI представила свою кибербез-модель после релиза Anthropic
OpenAI представила свою кибербез-модель после релиза Anthropic
Все испугались модели Mythos от Anthropic, больше всего — банкиры
Все испугались модели Mythos от Anthropic, больше всего — банкиры
Все испугались модели Mythos от Anthropic, больше всего — банкиры
2 комментария
Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic
Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic
Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.