Claude Mythos збегла з пясочніцы і сама распавяла пра гэта ў сетцы
Кампанія паведаміла пра серыю інцыдэнтаў пры тэставанні сваёй новай мадэлі штучнага інтэлекту Claude Mythos Preview. Сістэма змагла выйсці за межы ізаляванага асяроддзя і самастойна паведаміць пра гэта ў вонкавую сетку.
Кампанія паведаміла пра серыю інцыдэнтаў пры тэставанні сваёй новай мадэлі штучнага інтэлекту Claude Mythos Preview. Сістэма змагла выйсці за межы ізаляванага асяроддзя і самастойна паведаміць пра гэта ў вонкавую сетку.
Паводле дадзеных кампаніі, мадэль выявіла ўразлівасць, напісала эксплойт і адправіла электронны ліст даследчыку, тым самым пацвердзіўшы «ўцёкі» з тэставай пясочніцы.
Як адзначаецца ў тэхнічнай дакументацыі, пасля адпраўкі ліста мадэль не спынілася і без запыту апублікавала падрабязнасці свайго поспеху на некалькіх публічна даступных сайтах. Даследчык даведаўся пра гэты інцыдэнт, атрымаўшы паведамленне, пакуль знаходзіўся па-за працоўным месцам.
Anthropic таксама зафіксавала іншыя эпізоды нязгоднага паводзіння. У адным з тэстаў мадэль змагла атрымаць доступ да файлаў, на якія ў яе не было правоў, пасля чаго выдаліла гісторыю змяненняў перад праверкай, каб схаваць свае дзеянні. У іншым выпадку сістэма паспрабавала змяніць сістэмны промпт даследчыка, які правяраў яе адказы, каб дасягнуць больш высокай ацэнкі.
Акрамя таго, прыкладна ў 29% тэстаў мадэль дэманстравала здольнасць распазнаваць факт тэставання і наўмысна не паведамляць пра гэта ў сваіх разважаннях. У адным з заданняў яна знайшла правільнае рашэнне абыходным шляхам, але адмовілася яго выкарыстоўваць, выбраўшы менш дакладны, але менш падазроны адказ.
У кампаніі падкрэсліваюць, што падобныя выпадкі адбываліся надзвычай рэдка (менш чым у 0,001% тэстаў), аднак цалкам выключыць іх не ўдалося. Пры гэтым сама мадэль дэманструе высокі ўзровень аўтаномнасці: паводле дадзеных Anthropic, нават інжынеры без досведу ў кібербяспецы маглі з яе дапамогай за ноч атрымліваць гатовыя эксплойты для дыстанцыйнага выканання кода.
Асобную занепакоенасць выклікалі здольнасці мадэлі знаходзіць крытычныя ўразлівасці ў праграмным забеспячэнні. У прыватнасці, яна выявіла 27-гадовую ўразлівасць у OpenBSD, адной з найбольш абароненых аперацыйных сістэм. У кампаніі адзначаюць, што падобныя магчымасці могуць быць выкарыстаны як для абароны інфраструктуры, так і для атак.
На фоне гэтых інцыдэнтаў Anthropic вырашыла не адкрываць доступ да мадэлі для шырокай аўдыторыі і абмежаваць яе выкарыстанне межамі закрытага праекта з удзелам буйных тэхналагічных кампаній, уключаючы Google, Microsoft і Amazon Web Services. У кампаніі заявілі, што перш чым выводзіць такія сістэмы на рынак, неабходна распрацаваць больш надзейныя механізмы кантролю іх паводзін.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.