Дапамажыце dev.by 🤍
Падтрымаць

Карыстальнік заявіў, што ўзламаў абмежаванні Claude Fable 5 з дапамогай кірыліцы

Даследчык кібербяспекі сцвярджае, што яму ўдалося абысці шэраг ахоўных абмежаванняў Claude Fable 5, найноўшай мадэлі ад Anthropic.

Пакінуць каментарый
Карыстальнік заявіў, што ўзламаў абмежаванні Claude Fable 5 з дапамогай кірыліцы

Даследчык кібербяспекі сцвярджае, што яму ўдалося абысці шэраг ахоўных абмежаванняў Claude Fable 5, найноўшай мадэлі ад Anthropic.

Паводле даследчыка, які хаваецца пад нікам Pliny the Liberator, Fable 5 катэгарычна адмаўлялася адказваць на запыты, датычныя кібербяспекі, стварэння шкоднага кода і іншых забароненых тэм.

Тым не менш, яму ўдалося «разгаварыць» мадэль, выкарыстаўшы некалькі трук: замену лацінскіх літар візуальна падобнымі кірылічнымі сімвалімі, разбіццё запыту на асобныя бяскрыўдныя крокі і маскіроўку мэтай пад навучальныя ці гульнявыя сцэнарыі.

У адным з выпадкаў карыстальнік пераконваў мадэль, што яму патрэбныя тэхнічныя тлумачэнні для падрыхтоўкі да прафесійнай сертыфікацыі. У іншым — падаваў шкодны сцэнарый як частку распрацоўкі камп’ютарнай гульні. Ён таксама здабываў забароненую інфармацыю не праз прамы запыт, а з дапамогай ланцужка прамежкавых пытанняў.

На некаторых скрыншотах бачна, што абходы спрацоўвалі не адразу: для пэўных сцэнарыяў спатрэбіліся дзясяткі ці нават сотні ітэрацый. Даследчык таксама адзначае, што выкарыстоўваў некалькі ШІ-агентаў і мадыфікаваную версію Claude Opus 4.8 для аўтаматызаванага падбору промптаў.

Claude Fable 5 мае значна больш абмежаванняў, чым стандартныя мадэлі Anthropic. Раней кампанія тлумачыла гэта тым, што мадэль належыць да класа Mythos і можа быць асабліва карыснай у такіх адчувальных сферах, як кібербяспека і распрацоўка ШІ.

Anthropic прабачылася за схаваныя абмежаванні Claude Fable 5 і змяніла палітыку пасля крытыкі
Anthropic прабачылася за схаваныя абмежаванні Claude Fable 5 і змяніла палітыку пасля крытыкі
Па тэме
Anthropic прабачылася за схаваныя абмежаванні Claude Fable 5 і змяніла палітыку пасля крытыкі
Microsoft забараніла супрацоўнікам выкарыстоўваць Claude Fable 5: палітыка дадзеных Anthropic выклікала сумневы
Microsoft забараніла супрацоўнікам выкарыстоўваць Claude Fable 5: палітыка дадзеных Anthropic выклікала сумневы
Па тэме
Microsoft забараніла супрацоўнікам выкарыстоўваць Claude Fable 5: палітыка дадзеных Anthropic выклікала сумневы
Anthropic выпусціла Claude Fable 5 — публічную версію гучнай Mythos
Anthropic выпусціла Claude Fable 5 — публічную версію гучнай Mythos
Па тэме
Anthropic выпусціла Claude Fable 5 — публічную версію гучнай Mythos

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.