Беларусь + FemTech = ❤️? Stork целится в миллион установок
Support us

ИИ можно взломать, написав промпт в стихах

Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.

Оставить комментарий
ИИ можно взломать, написав промпт в стихах

Большие языковые модели можно заставить игнорировать встроенные защитные механизмы, если оформить вредоносный запрос в виде стихотворения.

В рамках эксперимента специалисты итальянской Icaro Lab написали 20 стихотворений на английском и итальянском языках, каждое из которых завершалось прямым запросом на создание вредного контента: от инструкций по изготовлению оружия до советов, связанных с саморазрушительным поведением.

Эти тексты проверили на 25 моделях девяти компаний, включая OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI и других. Google Gemini 2.5 Pro нарушал правила в 100% случаев, модели Meta отвечали на 70% «поэтических» запросов, а DeepSeek и Mistral также показали высокую уязвимость. Самыми устойчивыми оказались OpenAI GPT-5 nano и Claude Haiku 4.5, которые не нарушили защиту ни разу.

В среднем 62% протестированных моделей отвечали на опасные и запрещённые вопросы, несмотря на свои обученные ограничения. Исследователи объясняют, что поэтическая форма обладает непредсказуемой языковой структурой. Ритм, метафоры и необычный синтаксис нарушают привычные закономерности текста, из-за чего модель труднее распознает вредное намерение.

Поскольку LLM работают по принципу вероятностного подбора следующего слова, стихотворная форма затрудняет определение контекста и помогает скрывать опасные запросы. Некоторые ответы, полученные в ходе эксперимента, были настолько опасными, что исследователи отказались публиковать примеры джейлбрейков, утверждая, что многие из них «запрещены Женевской конвенцией».

Команда сообщила девяти компаниям о найденной уязвимости еще до публикации исследования, однако ответила лишь Anthropic. Google, Meta, OpenAI и другие участники эксперимента комментариев не предоставили. Представитель Google DeepMind Хелен Кинг заявила, что компания применяет многоуровневую систему безопасности и обновляет фильтры так, чтобы учитывать намерение пользователя, даже если оно скрыто в художественной форме.

Исследователи отмечают, что большинство существующих методов джейлбрейка сложны и требуют опыта хакеров или исследователей ИИ-безопасности. Поэтический подход, напротив, способен использовать любой человек, что делает уязвимость особенно значимой. Команда планирует запустить публичный «поэтический челлендж», чтобы привлечь профессиональных поэтов и проверить модели на устойчивость к еще более сложным стихотворным атакам.

Программисты с ИИ задают меньше вопросов и учатся хуже
Программисты с ИИ задают меньше вопросов и учатся хуже
По теме
Программисты с ИИ задают меньше вопросов и учатся хуже
ИИ уже сейчас может заменить 12% американских работников
ИИ уже сейчас может заменить 12% американских работников
По теме
ИИ уже сейчас может заменить 12% американских работников
CEO Nvidia требует от сотрудников использовать ИИ «везде где только можно»
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
По теме
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
Читайте также
Лидерство OpenAI начинает проседать спустя 3 года после релиза ChatGPT
Лидерство OpenAI начинает проседать спустя 3 года после релиза ChatGPT
Лидерство OpenAI начинает проседать спустя 3 года после релиза ChatGPT
Программисты с ИИ задают меньше вопросов и учатся хуже
Программисты с ИИ задают меньше вопросов и учатся хуже
Программисты с ИИ задают меньше вопросов и учатся хуже
Дуров запустил Cocoon — собственную сеть Telegram для ИИ-вычислений
Дуров запустил Cocoon — собственную сеть Telegram для ИИ-вычислений
Дуров запустил Cocoon — собственную сеть Telegram для ИИ-вычислений
1 комментарий
Экс-гендиректор Intel назвал, что «лопнет» ИИ-пузырь. Говорит, графическим процессорам осталось несколько лет
Экс-гендиректор Intel назвал, что «лопнет» ИИ-пузырь. Говорит, графическим процессорам осталось несколько лет
Экс-гендиректор Intel назвал, что «лопнет» ИИ-пузырь. Говорит, графическим процессорам осталось несколько лет

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.