Николай Чикишев world 19 апреля 2026, 15:54

Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic

Исследователи начали оспаривать заявления Anthropic об уникальных возможностях модели Claude Mythos в сфере кибербезопасности: менее мощные и дорогие модели могут находить такие же критические уязвимости.

Оставить комментарий

Ложная тревога: малые ИИ-модели могут находить баги не хуже нашумевшей Mythos от Anthropic

Исследователи начали оспаривать заявления Anthropic об уникальных возможностях модели Claude Mythos в сфере кибербезопасности: менее мощные и дорогие модели могут находить такие же критические уязвимости.

Ранее компания открыла доступ к Claude Mythos Preview только в рамках Project Glasswing — закрытой программы, где ограниченный круг организаций тестирует модель для поиска уязвимостей в критически важном ПО. В Anthropic утверждали, что система способна самостоятельно находить серьезные баги, создавать эксплойты и даже получать контроль над корпоративными сетями в симуляциях.

Однако независимые команды AISLE и Vidoc пришли к выводу, что значительная часть этих возможностей уже доступна и другим моделям, включая более дешевые и открытые.

Например, баг FreeBSD NFS (CVE-2026-4747) — это типичная ошибка работы с памятью, известная как переполнение буфера. Программа выделяет ограниченный участок памяти под данные, но не проверяет их размер при копировании. Если данных приходит больше, чем предусмотрено, они выходят за пределы этого участка и перезаписывают соседние области памяти — в том числе служебные данные и инструкции. Отправив специально подготовленный запрос, злоумышленник может заставить программу выполнять чужой код и тем самым получить полный контроль над сервером.

Anthropic показывала этот кейс как пример сложной автономной атаки. Но в AISLE сообщили, что все восемь протестированных моделей нашли эту уязвимость. Даже небольшая GPT-OSS-20b не только обнаружила проблему, но и оценила ее как критическую. Более мощные модели предложили сценарии эксплуатации, некоторые даже предположили, что атака может распространяться автоматически между машинами.

Сравнение моделей в задачах кибербезопасности: даже небольшие и открытые ИИ успешно находят уязвимости, но результаты резко различаются на более сложных задачах. Источник: AISLE.

Другой пример — уязвимость в OpenBSD. Здесь проблема сложнее: она связана не с памятью, а с логикой работы кода — например, с переполнением чисел или некорректной обработкой состояний. Такие баги труднее обнаружить, потому что они требуют понимания того, как программа ведет себя в разных условиях. В этом случае только часть моделей справилась с задачей: GPT-OSS-120b смогла восстановить цепочку атаки и предложить исправление, а другие модели либо ошиблись, либо вообще не увидели проблему.

Claude Mythos сбежала из песочницы и сама рассказала об этом в сети

Есть и более прикладные уязвимости, например в криптографии. В библиотеке Botan ошибка позволяла подменить сертификат: система считала его доверенным, даже если он поддельный.

Исследователи называют такую ситуацию «рваной границей возможностей»: одна и та же модель может отлично находить простые уязвимости вроде переполнения памяти, но ошибаться в более сложных логических или криптографических сценариях.

Vidoc пришла к похожим выводам. В их тестах GPT-5.4 и Claude Opus 4.6 смогли воспроизвести часть кейсов Anthropic, включая FreeBSD и Botan. Однако более сложные задачи обе модели решали лишь частично.

Результаты независимых тестов Vidoc: Claude Opus 4.6 и GPT-5.4 воспроизводят ключевые кейсы Mythos, но сложные уязвимости по-прежнему дают лишь частичные результаты. Источник: Vidoc.

Отдельная проблема — ложные срабатывания. Когда исследователи проверили, могут ли модели понять, что уязвимость уже исправлена, оказалось, что большинство продолжает видеть проблему даже в безопасном коде. Это критично для практики: такие системы могут создавать слишком много «шума», перегружая разработчиков.

Обе команды исследователей отмечают, что решающую роль играет не сама модель, а система вокруг нее. Важно не только найти баг, но и проверить его, оценить реальную опасность и отфильтровать ошибки. В AISLE прямо говорят, что ключевое преимущество — это не модель, а вся инфраструктура анализа. Vidoc добавляет, что главный барьер — не доступ к мощным ИИ, а способность встроить их в реальный процесс разработки и исправления уязвимостей.

В итоге исследователи считают, что Anthropic преувеличивает эксклюзивность Claude Mythos. Многие базовые возможности — поиск и анализ уязвимостей — уже доступны гораздо более широкому кругу моделей. Разница сегодня все больше смещается не в сторону «самого умного ИИ», а в сторону того, как именно он используется.