💸 Больше никаких «я тебе скину позже». Как это работает
Support us

ИИ можно взломать, написав промпт в стихах

Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.

Оставить комментарий
ИИ можно взломать, написав промпт в стихах

Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.

В рамках эксперимента специалисты итальянской Icaro Lab написали 20 стихотворений на английском и итальянском языках, каждое из которых завершалось прямым запросом на создание вредного контента: от инструкций по изготовлению оружия до советов, связанных с саморазрушительным поведением.

Эти тексты проверили на 25 моделях девяти компаний, включая OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI и других. Google Gemini 2.5 Pro нарушал правила в 100% случаев, модели Meta отвечали на 70% «поэтических» запросов, а DeepSeek и Mistral также показали высокую уязвимость. Самыми устойчивыми оказались OpenAI GPT-5 nano и Claude Haiku 4.5, которые не нарушили защиту ни разу.

В среднем 62% протестированных моделей отвечали на опасные и запрещённые вопросы, несмотря на свои обученные ограничения. Исследователи объясняют, что поэтическая форма обладает непредсказуемой языковой структурой. Ритм, метафоры и необычный синтаксис нарушают привычные закономерности текста, из-за чего модель труднее распознает вредное намерение.

Поскольку LLM работают по принципу вероятностного подбора следующего слова, стихотворная форма затрудняет определение контекста и помогает скрывать опасные запросы. Некоторые ответы, полученные в ходе эксперимента, были настолько опасными, что исследователи отказались публиковать примеры джейлбрейков, утверждая, что многие из них «запрещены Женевской конвенцией».

Команда сообщила девяти компаниям о найденной уязвимости еще до публикации исследования, однако ответила лишь Anthropic. Google, Meta, OpenAI и другие участники эксперимента комментариев не предоставили. Представитель Google DeepMind Хелен Кинг заявила, что компания применяет многоуровневую систему безопасности и обновляет фильтры так, чтобы учитывать намерение пользователя, даже если оно скрыто в художественной форме.

Исследователи отмечают, что большинство существующих методов джейлбрейка сложны и требуют опыта хакеров или исследователей ИИ-безопасности. Поэтический подход, напротив, способен использовать любой человек, что делает уязвимость особенно значимой. Команда планирует запустить публичный «поэтический челлендж», чтобы привлечь профессиональных поэтов и проверить модели на устойчивость к еще более сложным стихотворным атакам.

Программисты с ИИ задают меньше вопросов и учатся хуже
Программисты с ИИ задают меньше вопросов и учатся хуже
По теме
Программисты с ИИ задают меньше вопросов и учатся хуже
ИИ уже сейчас может заменить 12% американских работников
ИИ уже сейчас может заменить 12% американских работников
По теме
ИИ уже сейчас может заменить 12% американских работников
CEO Nvidia требует от сотрудников использовать ИИ «везде где только можно»
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
По теме
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
Читайте также
Бюджетная подписка ChatGPT Go теперь доступна в 70 странах
Бюджетная подписка ChatGPT Go теперь доступна в 70 странах
Бюджетная подписка ChatGPT Go теперь доступна в 70 странах
1 комментарий
Google попросила иностранных сотрудников не выезжать из США
Google попросила иностранных сотрудников не выезжать из США
Google попросила иностранных сотрудников не выезжать из США
CEO Uber: ИИ окупается и превращает программистов в «суперлюдей»
CEO Uber: ИИ окупается и превращает программистов в «суперлюдей»
CEO Uber: ИИ окупается и превращает программистов в «суперлюдей»
OpenAI выпустила GPT-5.2-Codex — агентную модель для программирования
OpenAI выпустила GPT-5.2-Codex — агентную модель для программирования
OpenAI выпустила GPT-5.2-Codex — агентную модель для программирования

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.