Support us

Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы

Исследователь кибербезопасности заявил, что смог обойти часть защитных ограничений Claude Fable 5 — новой модели Anthropic.

Оставить комментарий
Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы

Исследователь кибербезопасности заявил, что смог обойти часть защитных ограничений Claude Fable 5 — новой модели Anthropic.

По словам исследователя под ником Pliny the Liberator, Fable 5 отказывалась отвечать на некоторые запросы, связанные с кибербезопасностью, созданием вредных инструкций и другими запрещенными темами.

Однако ему удалось добиться ответов с помощью нескольких приемов: замены латинских букв похожими кириллическими символами, делением запроса на отдельные безобидные этапы и маскировки цели под учебный или игровой сценарий.

В одном из примеров пользователь утверждал, что ему нужны технические объяснения для подготовки к сертификации. В другом — описывал вредоносный сценарий как часть разработки компьютерной игры. Также он пытался получать запрещенную информацию не одним прямым запросом, а через цепочку промежуточных вопросов.

На некоторых скриншотах видно, что обходы срабатывали не сразу: для отдельных сценариев потребовались десятки или даже сотни итераций. Пользователь также утверждает, что использовал несколько ИИ-агентов и модифицированную версию Claude Opus 4.8 для подбора промптов.

Claude Fable 5 получила больше ограничений, чем обычные модели Anthropic. Компания ранее объясняла это тем, что модель относится к классу Mythos и может быть особенно полезна в чувствительных областях, включая кибербезопасность и разработку ИИ-моделей.

Anthropic извинилась за скрытые ограничения Claude Fable 5 и изменила политику после критики
Anthropic извинилась за скрытые ограничения Claude Fable 5 и изменила политику после критики
По теме
Anthropic извинилась за скрытые ограничения Claude Fable 5 и изменила политику после критики
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
По теме
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos
Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos
По теме
Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos
Читайте также
Все испугались модели Mythos от Anthropic, больше всего — банкиры
Все испугались модели Mythos от Anthropic, больше всего — банкиры
Все испугались модели Mythos от Anthropic, больше всего — банкиры
2 комментария
Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos
Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos
Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
1 комментарий
Anthropic извинилась за скрытые ограничения Claude Fable 5 и изменила политику после критики
Anthropic извинилась за скрытые ограничения Claude Fable 5 и изменила политику после критики
Anthropic извинилась за скрытые ограничения Claude Fable 5 и изменила политику после критики

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.