Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы
Исследователь кибербезопасности заявил, что смог обойти часть защитных ограничений Claude Fable 5 — новой модели Anthropic.
Исследователь кибербезопасности заявил, что смог обойти часть защитных ограничений Claude Fable 5 — новой модели Anthropic.
Исследователь кибербезопасности заявил, что смог обойти часть защитных ограничений Claude Fable 5 — новой модели Anthropic.
По словам исследователя под ником Pliny the Liberator, Fable 5 отказывалась отвечать на некоторые запросы, связанные с кибербезопасностью, созданием вредных инструкций и другими запрещенными темами.
🚨 JAILBREAK ALERT 🚨
— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) June 10, 2026
ANTHROPIC: PWNED 🫡
FABLE-5: LIBERATED 🦋
let’s start with the 🐘…
the consensus seems to be that this has been one of the most disappointing model drops of all time, effectively preventing legitimate researchers from contributing their talents to our… pic.twitter.com/Z0vdPIt4vY
Однако ему удалось добиться ответов с помощью нескольких приемов: замены латинских букв похожими кириллическими символами, делением запроса на отдельные безобидные этапы и маскировки цели под учебный или игровой сценарий.
В одном из примеров пользователь утверждал, что ему нужны технические объяснения для подготовки к сертификации. В другом — описывал вредоносный сценарий как часть разработки компьютерной игры. Также он пытался получать запрещенную информацию не одним прямым запросом, а через цепочку промежуточных вопросов.
На некоторых скриншотах видно, что обходы срабатывали не сразу: для отдельных сценариев потребовались десятки или даже сотни итераций. Пользователь также утверждает, что использовал несколько ИИ-агентов и модифицированную версию Claude Opus 4.8 для подбора промптов.
Claude Fable 5 получила больше ограничений, чем обычные модели Anthropic. Компания ранее объясняла это тем, что модель относится к классу Mythos и может быть особенно полезна в чувствительных областях, включая кибербезопасность и разработку ИИ-моделей.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.