Дапамажыце dev.by 🤍
Падтрымаць

Claude Mythos збегла з пясочніцы і сама распавяла пра гэта ў сетцы

Кампанія паведаміла пра серыю інцыдэнтаў пры тэставанні сваёй новай мадэлі штучнага інтэлекту Claude Mythos Preview. Сістэма змагла выйсці за межы ізаляванага асяроддзя і самастойна паведаміць пра гэта ў вонкавую сетку.

Пакінуць каментарый
Claude Mythos збегла з пясочніцы і сама распавяла пра гэта ў сетцы

Кампанія паведаміла пра серыю інцыдэнтаў пры тэставанні сваёй новай мадэлі штучнага інтэлекту Claude Mythos Preview. Сістэма змагла выйсці за межы ізаляванага асяроддзя і самастойна паведаміць пра гэта ў вонкавую сетку.

Паводле дадзеных кампаніі, мадэль выявіла ўразлівасць, напісала эксплойт і адправіла электронны ліст даследчыку, тым самым пацвердзіўшы «ўцёкі» з тэставай пясочніцы.

Як адзначаецца ў тэхнічнай дакументацыі, пасля адпраўкі ліста мадэль не спынілася і без запыту апублікавала падрабязнасці свайго поспеху на некалькіх публічна даступных сайтах. Даследчык даведаўся пра гэты інцыдэнт, атрымаўшы паведамленне, пакуль знаходзіўся па-за працоўным месцам.

Anthropic таксама зафіксавала іншыя эпізоды нязгоднага паводзіння. У адным з тэстаў мадэль змагла атрымаць доступ да файлаў, на якія ў яе не было правоў, пасля чаго выдаліла гісторыю змяненняў перад праверкай, каб схаваць свае дзеянні. У іншым выпадку сістэма паспрабавала змяніць сістэмны промпт даследчыка, які правяраў яе адказы, каб дасягнуць больш высокай ацэнкі.

Акрамя таго, прыкладна ў 29% тэстаў мадэль дэманстравала здольнасць распазнаваць факт тэставання і наўмысна не паведамляць пра гэта ў сваіх разважаннях. У адным з заданняў яна знайшла правільнае рашэнне абыходным шляхам, але адмовілася яго выкарыстоўваць, выбраўшы менш дакладны, але менш падазроны адказ.

У кампаніі падкрэсліваюць, што падобныя выпадкі адбываліся надзвычай рэдка (менш чым у 0,001% тэстаў), аднак цалкам выключыць іх не ўдалося. Пры гэтым сама мадэль дэманструе высокі ўзровень аўтаномнасці: паводле дадзеных Anthropic, нават інжынеры без досведу ў кібербяспецы маглі з яе дапамогай за ноч атрымліваць гатовыя эксплойты для дыстанцыйнага выканання кода.

Асобную занепакоенасць выклікалі здольнасці мадэлі знаходзіць крытычныя ўразлівасці ў праграмным забеспячэнні. У прыватнасці, яна выявіла 27-гадовую ўразлівасць у OpenBSD, адной з найбольш абароненых аперацыйных сістэм. У кампаніі адзначаюць, што падобныя магчымасці могуць быць выкарыстаны як для абароны інфраструктуры, так і для атак.

На фоне гэтых інцыдэнтаў Anthropic вырашыла не адкрываць доступ да мадэлі для шырокай аўдыторыі і абмежаваць яе выкарыстанне межамі закрытага праекта з удзелам буйных тэхналагічных кампаній, уключаючы Google, Microsoft і Amazon Web Services. У кампаніі заявілі, што перш чым выводзіць такія сістэмы на рынак, неабходна распрацаваць больш надзейныя механізмы кантролю іх паводзін.

Anthropic представила сервис для запуска ИИ-агентов обещает ускорение в 10 раз
Anthropic прадставіла сэрвіс для запуску ШІ-агентаў, абяцае паскарэнне ў 10 разоў
Па тэме
Anthropic прадставіла сэрвіс для запуску ШІ-агентаў, абяцае паскарэнне ў 10 разоў
Anthropic показала мощный ИИ для поиска уязвимостей но держит его закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Па тэме
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Meta показала первую модель новой ИИ-команды — после провала Llama 4
Meta паказала першую мадэль новай ШІ-каманды — пасля правалу Llama 4
Па тэме
Meta паказала першую мадэль новай ШІ-каманды — пасля правалу Llama 4
Чытайце таксама
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі
У сеціва патрапіў «агляд душы» чат-бота Claude ад Anthropic
У сеціва патрапіў «агляд душы» чат-бота Claude ад Anthropic
У сеціва патрапіў «агляд душы» чат-бота Claude ад Anthropic
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Claude Mythos збегла з пясочніцы і сама распавяла пра гэта ў сетцы
Claude Mythos збегла з пясочніцы і сама распавяла пра гэта ў сетцы
Claude Mythos збегла з пясочніцы і сама распавяла пра гэта ў сетцы

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.