Магистратура/Аспирантура по AI с полной стипендией — дедлайн 27 февраля
Support us

ИИ можно взломать, написав промпт в стихах

Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.

Оставить комментарий
ИИ можно взломать, написав промпт в стихах

Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.

В рамках эксперимента специалисты итальянской Icaro Lab написали 20 стихотворений на английском и итальянском языках, каждое из которых завершалось прямым запросом на создание вредного контента: от инструкций по изготовлению оружия до советов, связанных с саморазрушительным поведением.

Эти тексты проверили на 25 моделях девяти компаний, включая OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI и других. Google Gemini 2.5 Pro нарушал правила в 100% случаев, модели Meta отвечали на 70% «поэтических» запросов, а DeepSeek и Mistral также показали высокую уязвимость. Самыми устойчивыми оказались OpenAI GPT-5 nano и Claude Haiku 4.5, которые не нарушили защиту ни разу.

В среднем 62% протестированных моделей отвечали на опасные и запрещённые вопросы, несмотря на свои обученные ограничения. Исследователи объясняют, что поэтическая форма обладает непредсказуемой языковой структурой. Ритм, метафоры и необычный синтаксис нарушают привычные закономерности текста, из-за чего модель труднее распознает вредное намерение.

Поскольку LLM работают по принципу вероятностного подбора следующего слова, стихотворная форма затрудняет определение контекста и помогает скрывать опасные запросы. Некоторые ответы, полученные в ходе эксперимента, были настолько опасными, что исследователи отказались публиковать примеры джейлбрейков, утверждая, что многие из них «запрещены Женевской конвенцией».

Команда сообщила девяти компаниям о найденной уязвимости еще до публикации исследования, однако ответила лишь Anthropic. Google, Meta, OpenAI и другие участники эксперимента комментариев не предоставили. Представитель Google DeepMind Хелен Кинг заявила, что компания применяет многоуровневую систему безопасности и обновляет фильтры так, чтобы учитывать намерение пользователя, даже если оно скрыто в художественной форме.

Исследователи отмечают, что большинство существующих методов джейлбрейка сложны и требуют опыта хакеров или исследователей ИИ-безопасности. Поэтический подход, напротив, способен использовать любой человек, что делает уязвимость особенно значимой. Команда планирует запустить публичный «поэтический челлендж», чтобы привлечь профессиональных поэтов и проверить модели на устойчивость к еще более сложным стихотворным атакам.

Программисты с ИИ задают меньше вопросов и учатся хуже
Программисты с ИИ задают меньше вопросов и учатся хуже
По теме
Программисты с ИИ задают меньше вопросов и учатся хуже
ИИ уже сейчас может заменить 12% американских работников
ИИ уже сейчас может заменить 12% американских работников
По теме
ИИ уже сейчас может заменить 12% американских работников
CEO Nvidia требует от сотрудников использовать ИИ «везде где только можно»
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
По теме
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
Читайте также
Чат-бот Grok легко раскрывает домашние адреса пользователей
Чат-бот Grok легко раскрывает домашние адреса пользователей
Чат-бот Grok легко раскрывает домашние адреса пользователей
В сеть попал «обзор души» чат-бота Claude от Anthropic
В сеть попал «обзор души» чат-бота Claude от Anthropic
В сеть попал «обзор души» чат-бота Claude от Anthropic
Google обгоняет OpenAI и победит в ИИ-гонке — мнение «крёстного отца ИИ»
Google обгоняет OpenAI и победит в ИИ-гонке — мнение «крёстного отца ИИ»
Google обгоняет OpenAI и победит в ИИ-гонке — мнение «крёстного отца ИИ»
Meta разочаровалась в метавселенной и режет расходы
Meta разочаровалась в метавселенной и режет расходы
Meta разочаровалась в метавселенной и режет расходы

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.