Николай Чикишев world 12 июня 2026, 13:25

Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы

Исследователь кибербезопасности заявил, что смог обойти часть защитных ограничений Claude Fable 5 — новой модели Anthropic.

Оставить комментарий

Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы

Исследователь кибербезопасности заявил, что смог обойти часть защитных ограничений Claude Fable 5 — новой модели Anthropic.

По словам исследователя под ником Pliny the Liberator, Fable 5 отказывалась отвечать на некоторые запросы, связанные с кибербезопасностью, созданием вредных инструкций и другими запрещенными темами.

🚨 JAILBREAK ALERT 🚨

ANTHROPIC: PWNED 🫡
FABLE-5: LIBERATED 🦋

let’s start with the 🐘…

the consensus seems to be that this has been one of the most disappointing model drops of all time, effectively preventing legitimate researchers from contributing their talents to our… pic.twitter.com/Z0vdPIt4vY
— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) June 10, 2026

Однако ему удалось добиться ответов с помощью нескольких приемов: замены латинских букв похожими кириллическими символами, делением запроса на отдельные безобидные этапы и маскировки цели под учебный или игровой сценарий.

В одном из примеров пользователь утверждал, что ему нужны технические объяснения для подготовки к сертификации. В другом — описывал вредоносный сценарий как часть разработки компьютерной игры. Также он пытался получать запрещенную информацию не одним прямым запросом, а через цепочку промежуточных вопросов.

На некоторых скриншотах видно, что обходы срабатывали не сразу: для отдельных сценариев потребовались десятки или даже сотни итераций. Пользователь также утверждает, что использовал несколько ИИ-агентов и модифицированную версию Claude Opus 4.8 для подбора промптов.

Claude Fable 5 получила больше ограничений, чем обычные модели Anthropic. Компания ранее объясняла это тем, что модель относится к классу Mythos и может быть особенно полезна в чувствительных областях, включая кибербезопасность и разработку ИИ-моделей.