Николай Чикишев world 18 мая 2026, 13:42

Хайповая Mythos от Anthropic лучше ищет уязвимости, но не во всём превосходит конкурентов

Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.

1 комментарий

Хайповая Mythos от Anthropic лучше ищет уязвимости, но не во всём превосходит конкурентов

Эксперты по кибербезопасности проверили закрытую модель и подтвердили: она действительно заметно лучше прежних моделей находит уязвимости, особенно при анализе исходного кода. Но в других задачах ее преимущество оказалось менее однозначным.

Anthropic анонсировала Mythos в апреле как модель с особенно сильными возможностями в поиске уязвимостей. Компания XBOW получила ранний доступ к Mythos Preview и проверила модель на своих внутренних бенчмарках, рабочих сценариях, интерактивном использовании и интеграциях.

Главная сильная сторона Mythos — анализ исходного кода. По оценке XBOW, модель особенно хорошо находит потенциальные уязвимости, когда ей доступен исходный код, и демонстрирует высокую техническую точность в рассуждениях о коде. В сравнении с Opus 4.6 число ложноотрицательных результатов снизилось на 42%, а в варианте с доступом к исходному коду сайта — на 55%.

Результаты тестирования Mythos Preview на бенчмарках XBOW: модель лучше всего показала себя в поиске уязвимостей в веб-приложениях и нативном коде, но в задачах оценки рисков и безопасности команд ее результаты оказались менее стабильными. Источник: XBOW.

Однако подтверждение уязвимостей на практике оказалось более сложной задачей. Эксперты сообщают: многие проблемы возникают не только в самом коде, а на пересечении кода, конфигурации, зависимостей, деплоя и поведения живой системы. Поэтому модель лучше показывает себя в связке «live site + source code», когда можно сначала найти подозрительное место в коде, затем проверить его на работающем сайте и только после этого собрать эксплойт.

Оценки по другим направлениям оказались смешанными. В вопросах judgment — оценки угроз, проверки ложных срабатываний и безопасности команд — Mythos часто была точной и осторожной, но иногда слишком буквальной и консервативной. Модель лучше предшественников отсеивала ложные срабатывания, но могла терять реальные уязвимости, если доказательства не полностью соответствовали формальным критериям.

Сравнение моделей по эффективности поиска уязвимостей: Mythos Preview показывает самый высокий показатель — вероятность найти уязвимость у него более чем в 10 раз выше вероятности ее пропустить. Источник: XBOW.

«Mythos Preview ценна, но не самодостаточна: ей нужны точные промпты, явные модели угроз и инфраструктура валидации, чтобы превратить сильное рассуждение в надежные результаты безопасности», — пишет XBOW.

В анализе нативного кода и обратной разработке модель показала себя сильнее. В тестах, связанных с Chromium и V8 sandbox, Mythos находила больше реальных багов и давала меньше ложных срабатываний по сравнению с предыдущими базовыми моделями. Исследователи также отмечают, что модель хорошо рассуждала о необычных firmware- и embedded-сценариях, где требуется не просто распознавание шаблонов.

Отдельно тестировалась visual acuity — способность модели работать с живым сайтом через браузерный интерфейс: находить нужный элемент UI и выбирать правильное действие. Mythos не всегда точно называла координаты пиксель-в-пиксель, но на практике хорошо выбирала нужные действия в браузере.

Сравнение моделей XBOW при фиксированном бюджете токенов: Mythos быстрее других повышает шансы найти веб-уязвимость в open source-приложениях и показывает лучший результат уже при меньшем числе выходных токенов. Источник: XBOW.

Главное ограничение Mythos — стоимость. Anthropic пока не раскрыла публичные API-цены, но сообщала, что Mythos будет примерно в пять раз дороже Opus, который и так относится к дорогим моделям. XBOW проверила, можно ли дать более дешевой модели больше времени и получить лучший результат за меньшие деньги. Ответ оказался положительным.

По оценке XBOW, если нормализовать результаты по предполагаемой стоимости запуска, Mythos остается мощной, но не всегда лучшей моделью по соотношению цена/результат. Для поиска веб-уязвимостей при фиксированном токен-бюджете Mythos превосходит Opus 4.6, но уступает GPT-5.5.

OpenAI запустила Daybreak — свой ответ на Claude Mythos от Anthropic

603 млрд токенов за месяц: создатель OpenClaw потратил $13 млн на Codex

Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic

1 комментарий

Текст: Николай Чикишев Источник: XBOW Теги: mythos, anthropic, кибербезопасность, искусственный интеллект, уязвимости

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Anthropic показала мощный ИИ для поиска уязвимостей, но держит его закрытым

OpenAI представила свою кибербез-модель после релиза Anthropic

Все испугались модели Mythos от Anthropic, больше всего — банкиры

2 комментария

Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Alex V

0

Ходил недавно на конференцию, участвовал в hacking challenge. 24 проблемы на взлом сайтов, баз, шифров, даже в реестре Виндовс нужно было копаться. Очень сложно, сам бы, может, 2-3 кое-как решил бы. Claude Code пощелкал как орешки. Можно было даже условия не читать. Причем, там не просто открыть код и найти опечатку. Там многоступенчатые проблемы - найти в коде какой-то хук, вызвать его с определенными параметрами, которые передадут инъекцию, найти способ получить ответ, подменить сертификат, чтобы прочитать ответ и т.д. Все это не за раз - часто Claude Code пробовал разные варианты, пока не находил что-то, что давало возможность продвинуться дальше. Писал много скриптов, пользовался браузером. Пару раз, вылетали ошибки от Anthropic, что я нарушаю пользовательское соглашение. Claude Code помогал мне их обходить. Давал инструкции, чтобы я сделал то, что он не может. В конце каждый задачи говорил "давай следующую" и "есть что посложнее".

На работе есть доступ к Mythos - тоже находит впечатляющие вещи. Не вижу смысла сравнивать. 99% взломов - это эксплоит ошибок в коде или инфраструктуре. Часто даже элементарных. Вот эти ошибки они и находят. Плюс знание всех технических нюансов, всех типичных узявимостей и техник, возможность писать для себя скрипты.

Карыстальнік адрэдагаваў каментарый 18 мая 2026, 16:32

Увайдзіце, каб пакінуць каментарый