Дапамажыце dev.by 🤍
Падтрымаць

Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў

Эксперты па кібербяспецы праверылі закрытую мадэль і пацвердзілі: яна сапраўды значна лепш за папярэднія знаходзіць уразлівасці, асабліва пры аналізе зыходнага кода. Але ў іншых задачах яе перавага аказалася менш адназначнай.

1 каментарый
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў

Эксперты па кібербяспецы праверылі закрытую мадэль і пацвердзілі: яна сапраўды значна лепш за папярэднія знаходзіць уразлівасці, асабліва пры аналізе зыходнага кода. Але ў іншых задачах яе перавага аказалася менш адназначнай.

У красавіку Anthropic аб’явіла Mythos — мадэль з асабліва моцнымі магчымасцямі для пошуку ўразлівасцяў. Кампанія XBOW атрымала ранні доступ да Mythos Preview і пратэставала яе на ўнутраных бэнчмарках, у рэальных сцэнарыях, пры інтэрактыўным выкарыстанні ды ў інтэграцыях.

Галоўны козыр Mythos — аналіз зыходнага кода. Паводле ацэнкі XBOW, мадэль выдатна знаходзіць патэнцыйныя ўразлівасці пры доступе да зыходнага кода і дэманструе высокую тэхнічную дакладнасць у разважаннях над ім. У параўнанні з Opus 4.6 лік ілжэпазітываў знізіўся на 42%, а ў сцэнары з доступам да зыходнага кода сайта — на 55%.

Вынікі тэставання Mythos Preview на бэнчмарках XBOW: мадэль паказала найлепшы вынік у пошуку ўразлівасцяў ва вэб-прыкладаннях і натіўным кодзе, але ў задачах ацэнкі рызык і бяспекі каманд яе вынікі аказаліся менш стабільнымі. Крыніца: XBOW.

Аднак пацвярджаць уразлівасці на практыцы аказалася складаней. Экспэрты адзначаюць: многія праблемы ўзнікаюць не толькі ў кодзe, але і на скрыжаванні кода, канфігурацыі, залежнасцяў, разгортвання і паводзін жывой сістэмы. Таму мадэль лепш працуе ў сцэнары «live site + source code»: спачатку шукаеш падазроныя ўчасткі ў кодзе, потым праверыць іх на працуючым сайце і толькі пасля гэтага сабраць эксплойт.

Ацэнкі па іншых напрамках аказаліся змешанымі. У пытаннях judgment — ацэнкі пагроз, праверкі ілжэсігналаў і бяспекі каманд — Mythos часта была дакладнай і асцярожнай, аднак часам занадта літаральнай і кансерватыўнай. Мадэль лепш за папярэднікаў адсейвала ілжэпазітывы, але магла прапускаць рэальныя ўразлівасці, калі доказы не цалкам адпавядалі фармальным крытэрыям.

Параўнанне мадэляў па эфектыўнасці пошуку ўразлівасцяў: у Mythos Preview найвышэйшы паказчык — верагоднасць знайсці ўразлівасць больш чым у 10 разоў вышэйшая, чым прапусціць яе. Крыніца: XBOW.

«Mythos Preview каштоўная, але не самадастатковая: ёй патрэбныя дакладныя промпты, выразныя мадэлі пагрозаў і інфраструктура верыфікацыі, каб ператварыць моцныя разважанні ў надзейныя вынікі бяспекі», — пішуць у XBOW.

У аналізе натыўнага кода і рэверс-інжынірынгу мадэль праявіла сябе мацней. У тэстах з Chromium і V8 sandbox Mythos знаходзіла больш рэальных багаў і давала менш ілжэпазітываў у параўнанні з папярэднімі базавымі мадэлямі. Даследнікі таксама адзначаюць, што мадэль добра разважала пра нестандартныя сцэнары firmware і embedded, дзе патрабуецца не проста распазнаванне шаблонаў.

Асобна тэставалі visual acuity — здольнасць мадэлі працаваць з жывым сайтам праз браўзерны інтэрфейс: знаходзіць патрэбныя элементы UI і выбіраць правільныя дзеянні. Mythos не заўсёды дакладна вызначала каардынаты піксель ў піксель, але на практыцы добра выбірала патрэбныя дзеянні ў браўзеры.

Параўнанне мадэляў XBOW пры фіксаваным бюджэце токенаў: Mythos хутчэй за ўсіх павышае шанцы знайсці вэб-уразлівасць у open-source-прыкладаннях і дэманструе лепшы вынік ужо пры меншым ліку выходных токенаў. Крыніца: XBOW.

Галоўнае абмежаванне Mythos — кошт. Anthropic пакуль не агучыла публічныя API-цэны, але кажа, што Mythos будзе прыкладна ў пяць разоў даражэйшая за Opus, які і так лічыцца дарагім. XBOW праверыла, ці можна даць больш таннай мадэлі больш часу і атрымаць лепшы вынік за меншыя грошы. Вынік аказаўся станоўчым.

Паводле ацэнкі XBOW, калі нармалізаваць вынікі з улікам кошту запуску, Mythos застаецца магутнай, але не заўсёды найлепшым выбарам па суадносінах кошт/вынік. Пры пошуку вэб-уразлівасцяў пры фіксаваным токен-бюджэце Mythos пераўзыходзіць Opus 4.6, але саступае GPT-5.5.

OpenAI запусціла Daybreak — свой адказ на Claude Mythos ад Anthropic
OpenAI запусціла Daybreak — свой адказ на Claude Mythos ад Anthropic
Па тэме
OpenAI запусціла Daybreak — свой адказ на Claude Mythos ад Anthropic
603 млрд токенаў за месяц: стваральнік OpenClaw патраціў $1,3 млн на Codex
603 млрд токенаў за месяц: стваральнік OpenClaw патраціў $1,3 млн на Codex
Па тэме
603 млрд токенаў за месяц: стваральнік OpenClaw патраціў $1,3 млн на Codex
Хлуслівая трывога: малыя ІІ-мадэлі могуць знаходзіць багі не горш за гучную Mythos ад Anthropic
Хлуслівая трывога: малыя ІІ-мадэлі могуць знаходзіць багі не горш за гучную Mythos ад Anthropic
Па тэме
Хлуслівая трывога: малыя ІІ-мадэлі могуць знаходзіць багі не горш за гучную Mythos ад Anthropic
Чытайце таксама
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
OpenAI прадставіла сваю кібербяспечную мадэль пасля рэлізу Anthropic
OpenAI прадставіла сваю кібербяспечную мадэль пасля рэлізу Anthropic
OpenAI прадставіла сваю кібербяспечную мадэль пасля рэлізу Anthropic
Усе спужаліся мадэлі Mythos ад Anthropic, больш за ўсё — банкіры
Усе спужаліся мадэлі Mythos ад Anthropic, больш за ўсё — банкіры
Усе спужаліся мадэлі Mythos ад Anthropic, больш за ўсё — банкіры
2 каментарыя
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

0

Ходил недавно на конференцию, участвовал в hacking challenge. 24 проблемы на взлом сайтов, баз, шифров, даже в реестре Виндовс нужно было копаться. Очень сложно, сам бы, может, 2-3 кое-как решил бы. Claude Code пощелкал как орешки. Можно было даже условия не читать. Причем, там не просто открыть код и найти опечатку. Там многоступенчатые проблемы - найти в коде какой-то хук, вызвать его с определенными параметрами, которые передадут инъекцию, найти способ получить ответ, подменить сертификат, чтобы прочитать ответ и т.д. Все это не за раз - часто Claude Code пробовал разные варианты, пока не находил что-то, что давало возможность продвинуться дальше. Писал много скриптов, пользовался браузером. Пару раз, вылетали ошибки от Anthropic, что я нарушаю пользовательское соглашение. Claude Code помогал мне их обходить. Давал инструкции, чтобы я сделал то, что он не может. В конце каждый задачи говорил "давай следующую" и "есть что посложнее".

На работе есть доступ к Mythos - тоже находит впечатляющие вещи. Не вижу смысла сравнивать. 99% взломов - это эксплоит ошибок в коде или инфраструктуре. Часто даже элементарных. Вот эти ошибки они и находят. Плюс знание всех технических нюансов, всех типичных узявимостей и техник, возможность писать для себя скрипты.

Карыстальнік адрэдагаваў каментарый 18 мая 2026, 16:32