Карыстальнік заявіў, што ўзламаў абмежаванні Claude Fable 5 з дапамогай кірыліцы
Даследчык кібербяспекі сцвярджае, што яму ўдалося абысці шэраг ахоўных абмежаванняў Claude Fable 5, найноўшай мадэлі ад Anthropic.
Даследчык кібербяспекі сцвярджае, што яму ўдалося абысці шэраг ахоўных абмежаванняў Claude Fable 5, найноўшай мадэлі ад Anthropic.
Даследчык кібербяспекі сцвярджае, што яму ўдалося абысці шэраг ахоўных абмежаванняў Claude Fable 5, найноўшай мадэлі ад Anthropic.
Паводле даследчыка, які хаваецца пад нікам Pliny the Liberator, Fable 5 катэгарычна адмаўлялася адказваць на запыты, датычныя кібербяспекі, стварэння шкоднага кода і іншых забароненых тэм.
🚨 АБВЯШЧЭННЕ ПРАЎЗЛОМ 🚨
— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) June 10, 2026
ANTHROPIC: УЗЛАМАНА 🫡
FABLE-5: ВЫЗВАЛЕНА 🦋
пачнем з 🐘…
здаецца, кансэнсус такі, што гэта адзін з самых расчаравальных рэлізаў мадэлей за ўвесь час, які фактычна не дазваляе сапраўдным даследчыкам унесці свой уклад у нашы… pic.twitter.com/Z0vdPIt4vY
Тым не менш, яму ўдалося «разгаварыць» мадэль, выкарыстаўшы некалькі трук: замену лацінскіх літар візуальна падобнымі кірылічнымі сімвалімі, разбіццё запыту на асобныя бяскрыўдныя крокі і маскіроўку мэтай пад навучальныя ці гульнявыя сцэнарыі.
У адным з выпадкаў карыстальнік пераконваў мадэль, што яму патрэбныя тэхнічныя тлумачэнні для падрыхтоўкі да прафесійнай сертыфікацыі. У іншым — падаваў шкодны сцэнарый як частку распрацоўкі камп’ютарнай гульні. Ён таксама здабываў забароненую інфармацыю не праз прамы запыт, а з дапамогай ланцужка прамежкавых пытанняў.
На некаторых скрыншотах бачна, што абходы спрацоўвалі не адразу: для пэўных сцэнарыяў спатрэбіліся дзясяткі ці нават сотні ітэрацый. Даследчык таксама адзначае, што выкарыстоўваў некалькі ШІ-агентаў і мадыфікаваную версію Claude Opus 4.8 для аўтаматызаванага падбору промптаў.
Claude Fable 5 мае значна больш абмежаванняў, чым стандартныя мадэлі Anthropic. Раней кампанія тлумачыла гэта тым, што мадэль належыць да класа Mythos і можа быць асабліва карыснай у такіх адчувальных сферах, як кібербяспека і распрацоўка ШІ.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.