Дапамажыце dev.by 🤍
Падтрымаць

Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў

Эксперты па кібербяспецы праверылі закрытую мадэль і пацвердзілі: яна сапраўды значна лепш за папярэднія знаходзіць уразлівасці, асабліва пры аналізе зыходнага кода. Але ў іншых задачах яе перавага аказалася менш адназначнай.

Пакінуць каментарый
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў

Эксперты па кібербяспецы праверылі закрытую мадэль і пацвердзілі: яна сапраўды значна лепш за папярэднія знаходзіць уразлівасці, асабліва пры аналізе зыходнага кода. Але ў іншых задачах яе перавага аказалася менш адназначнай.

У красавіку Anthropic аб’явіла Mythos — мадэль з асабліва моцнымі магчымасцямі для пошуку ўразлівасцяў. Кампанія XBOW атрымала ранні доступ да Mythos Preview і пратэставала яе на ўнутраных бэнчмарках, у рэальных сцэнарыях, пры інтэрактыўным выкарыстанні ды ў інтэграцыях.

Галоўны козыр Mythos — аналіз зыходнага кода. Паводле ацэнкі XBOW, мадэль выдатна знаходзіць патэнцыйныя ўразлівасці пры доступе да зыходнага кода і дэманструе высокую тэхнічную дакладнасць у разважаннях над ім. У параўнанні з Opus 4.6 лік ілжэпазітываў знізіўся на 42%, а ў сцэнары з доступам да зыходнага кода сайта — на 55%.

Вынікі тэставання Mythos Preview на бэнчмарках XBOW: мадэль паказала найлепшы вынік у пошуку ўразлівасцяў ва вэб-прыкладаннях і натіўным кодзе, але ў задачах ацэнкі рызык і бяспекі каманд яе вынікі аказаліся менш стабільнымі. Крыніца: XBOW.

Аднак пацвярджаць уразлівасці на практыцы аказалася складаней. Экспэрты адзначаюць: многія праблемы ўзнікаюць не толькі ў кодзe, але і на скрыжаванні кода, канфігурацыі, залежнасцяў, разгортвання і паводзін жывой сістэмы. Таму мадэль лепш працуе ў сцэнары «live site + source code»: спачатку шукаеш падазроныя ўчасткі ў кодзе, потым праверыць іх на працуючым сайце і толькі пасля гэтага сабраць эксплойт.

Ацэнкі па іншых напрамках аказаліся змешанымі. У пытаннях judgment — ацэнкі пагроз, праверкі ілжэсігналаў і бяспекі каманд — Mythos часта была дакладнай і асцярожнай, аднак часам занадта літаральнай і кансерватыўнай. Мадэль лепш за папярэднікаў адсейвала ілжэпазітывы, але магла прапускаць рэальныя ўразлівасці, калі доказы не цалкам адпавядалі фармальным крытэрыям.

Параўнанне мадэляў па эфектыўнасці пошуку ўразлівасцяў: у Mythos Preview найвышэйшы паказчык — верагоднасць знайсці ўразлівасць больш чым у 10 разоў вышэйшая, чым прапусціць яе. Крыніца: XBOW.

«Mythos Preview каштоўная, але не самадастатковая: ёй патрэбныя дакладныя промпты, выразныя мадэлі пагрозаў і інфраструктура верыфікацыі, каб ператварыць моцныя разважанні ў надзейныя вынікі бяспекі», — пішуць у XBOW.

У аналізе натыўнага кода і рэверс-інжынірынгу мадэль праявіла сябе мацней. У тэстах з Chromium і V8 sandbox Mythos знаходзіла больш рэальных багаў і давала менш ілжэпазітываў у параўнанні з папярэднімі базавымі мадэлямі. Даследнікі таксама адзначаюць, што мадэль добра разважала пра нестандартныя сцэнары firmware і embedded, дзе патрабуецца не проста распазнаванне шаблонаў.

Асобна тэставалі visual acuity — здольнасць мадэлі працаваць з жывым сайтам праз браўзерны інтэрфейс: знаходзіць патрэбныя элементы UI і выбіраць правільныя дзеянні. Mythos не заўсёды дакладна вызначала каардынаты піксель ў піксель, але на практыцы добра выбірала патрэбныя дзеянні ў браўзеры.

Параўнанне мадэляў XBOW пры фіксаваным бюджэце токенаў: Mythos хутчэй за ўсіх павышае шанцы знайсці вэб-уразлівасць у open-source-прыкладаннях і дэманструе лепшы вынік ужо пры меншым ліку выходных токенаў. Крыніца: XBOW.

Галоўнае абмежаванне Mythos — кошт. Anthropic пакуль не агучыла публічныя API-цэны, але кажа, што Mythos будзе прыкладна ў пяць разоў даражэйшая за Opus, які і так лічыцца дарагім. XBOW праверыла, ці можна даць больш таннай мадэлі больш часу і атрымаць лепшы вынік за меншыя грошы. Вынік аказаўся станоўчым.

Паводле ацэнкі XBOW, калі нармалізаваць вынікі з улікам кошту запуску, Mythos застаецца магутнай, але не заўсёды найлепшым выбарам па суадносінах кошт/вынік. Пры пошуку вэб-уразлівасцяў пры фіксаваным токен-бюджэце Mythos пераўзыходзіць Opus 4.6, але саступае GPT-5.5.

OpenAI запусціла Daybreak — свой адказ на Claude Mythos ад Anthropic
OpenAI запусціла Daybreak — свой адказ на Claude Mythos ад Anthropic
Па тэме
OpenAI запусціла Daybreak — свой адказ на Claude Mythos ад Anthropic
603 млрд токенаў за месяц: стваральнік OpenClaw патраціў $1,3 млн на Codex
603 млрд токенаў за месяц: стваральнік OpenClaw патраціў $1,3 млн на Codex
Па тэме
603 млрд токенаў за месяц: стваральнік OpenClaw патраціў $1,3 млн на Codex
Хлуслівая трывога: малыя ІІ-мадэлі могуць знаходзіць багі не горш за гучную Mythos ад Anthropic
Хлуслівая трывога: малыя ІІ-мадэлі могуць знаходзіць багі не горш за гучную Mythos ад Anthropic
Па тэме
Хлуслівая трывога: малыя ІІ-мадэлі могуць знаходзіць багі не горш за гучную Mythos ад Anthropic
Чытайце таксама
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
OpenAI прадставіла сваю кібербяспечную мадэль пасля рэлізу Anthropic
OpenAI прадставіла сваю кібербяспечную мадэль пасля рэлізу Anthropic
OpenAI прадставіла сваю кібербяспечную мадэль пасля рэлізу Anthropic
Усе спужаліся мадэлі Mythos ад Anthropic, больш за ўсё — банкіры
Усе спужаліся мадэлі Mythos ад Anthropic, больш за ўсё — банкіры
Усе спужаліся мадэлі Mythos ад Anthropic, больш за ўсё — банкіры
2 каментарыя
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў
Хайповая Mythos ад Anthropic лепш шукае уразлівасці, але не ва ўсім пераўзыходзіць канкурэнтаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.