ИИ можно взломать, написав промпт в стихах
Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.
В рамках эксперимента специалисты итальянской Icaro Lab написали 20 стихотворений на английском и итальянском языках, каждое из которых завершалось прямым запросом на создание вредного контента: от инструкций по изготовлению оружия до советов, связанных с саморазрушительным поведением.
Эти тексты проверили на 25 моделях девяти компаний, включая OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI и других. Google Gemini 2.5 Pro нарушал правила в 100% случаев, модели Meta отвечали на 70% «поэтических» запросов, а DeepSeek и Mistral также показали высокую уязвимость. Самыми устойчивыми оказались OpenAI GPT-5 nano и Claude Haiku 4.5, которые не нарушили защиту ни разу.
В среднем 62% протестированных моделей отвечали на опасные и запрещённые вопросы, несмотря на свои обученные ограничения. Исследователи объясняют, что поэтическая форма обладает непредсказуемой языковой структурой. Ритм, метафоры и необычный синтаксис нарушают привычные закономерности текста, из-за чего модель труднее распознает вредное намерение.
Поскольку LLM работают по принципу вероятностного подбора следующего слова, стихотворная форма затрудняет определение контекста и помогает скрывать опасные запросы. Некоторые ответы, полученные в ходе эксперимента, были настолько опасными, что исследователи отказались публиковать примеры джейлбрейков, утверждая, что многие из них «запрещены Женевской конвенцией».
Команда сообщила девяти компаниям о найденной уязвимости еще до публикации исследования, однако ответила лишь Anthropic. Google, Meta, OpenAI и другие участники эксперимента комментариев не предоставили. Представитель Google DeepMind Хелен Кинг заявила, что компания применяет многоуровневую систему безопасности и обновляет фильтры так, чтобы учитывать намерение пользователя, даже если оно скрыто в художественной форме.
Исследователи отмечают, что большинство существующих методов джейлбрейка сложны и требуют опыта хакеров или исследователей ИИ-безопасности. Поэтический подход, напротив, способен использовать любой человек, что делает уязвимость особенно значимой. Команда планирует запустить публичный «поэтический челлендж», чтобы привлечь профессиональных поэтов и проверить модели на устойчивость к еще более сложным стихотворным атакам.
Читать на dev.by