ИИ можно взломать, написав промпт в стихах

Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.

Оставить комментарий

В рамках эксперимента специалисты итальянской Icaro Lab написали 20 стихотворений на английском и итальянском языках, каждое из которых завершалось прямым запросом на создание вредного контента: от инструкций по изготовлению оружия до советов, связанных с саморазрушительным поведением.

Эти тексты проверили на 25 моделях девяти компаний, включая OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI и других. Google Gemini 2.5 Pro нарушал правила в 100% случаев, модели Meta отвечали на 70% «поэтических» запросов, а DeepSeek и Mistral также показали высокую уязвимость. Самыми устойчивыми оказались OpenAI GPT-5 nano и Claude Haiku 4.5, которые не нарушили защиту ни разу.

В среднем 62% протестированных моделей отвечали на опасные и запрещённые вопросы, несмотря на свои обученные ограничения. Исследователи объясняют, что поэтическая форма обладает непредсказуемой языковой структурой. Ритм, метафоры и необычный синтаксис нарушают привычные закономерности текста, из-за чего модель труднее распознает вредное намерение.

Поскольку LLM работают по принципу вероятностного подбора следующего слова, стихотворная форма затрудняет определение контекста и помогает скрывать опасные запросы. Некоторые ответы, полученные в ходе эксперимента, были настолько опасными, что исследователи отказались публиковать примеры джейлбрейков, утверждая, что многие из них «запрещены Женевской конвенцией».

Команда сообщила девяти компаниям о найденной уязвимости еще до публикации исследования, однако ответила лишь Anthropic. Google, Meta, OpenAI и другие участники эксперимента комментариев не предоставили. Представитель Google DeepMind Хелен Кинг заявила, что компания применяет многоуровневую систему безопасности и обновляет фильтры так, чтобы учитывать намерение пользователя, даже если оно скрыто в художественной форме.

Исследователи отмечают, что большинство существующих методов джейлбрейка сложны и требуют опыта хакеров или исследователей ИИ-безопасности. Поэтический подход, напротив, способен использовать любой человек, что делает уязвимость особенно значимой. Команда планирует запустить публичный «поэтический челлендж», чтобы привлечь профессиональных поэтов и проверить модели на устойчивость к еще более сложным стихотворным атакам.

Программисты с ИИ задают меньше вопросов и учатся хуже
По теме
Программисты с ИИ задают меньше вопросов и учатся хуже
ИИ уже сейчас может заменить 12% американских работников
По теме
ИИ уже сейчас может заменить 12% американских работников
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
По теме
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»

Читать на dev.by