Все популярные ИИ-модели можно взломать одним универсальным способом

Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.

1 комментарий

Согласно заявлению HiddenLayer, метод Policy Puppetry заключается в составлении специальных запросов к большим языковым моделям таким образом, что они интерпретируются как политики поведения. Метод предполагает создание запроса, имитирующего формат файлов, таких как XML, INI или JSON. В итоге средства защиты моделей перестают работать и позволяют злоумышленникам обходить встроенные ограничения.

Разработчики утверждают, что даже даже обучение с подкреплением на этапе тонкой настройки, призванное исключить вывод подобного контента, оказывается неэффективным против Policy Puppetry. Исследователи протестировали атаку Policy Puppetry на самых популярных моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba. Технология оказалась успешной против всех, хотя в некоторых случаях требовались незначительные корректировки.

Разработанная техника является универсальной и переносимой, то есть один и тот же запрос или шаблон запроса может быть использован против различных моделей без существенных изменений. Это означает, что злоумышленникам больше не нужно обладать глубокими знаниями о конкретной модели или адаптировать свои атаки под каждую из них.

Policy Puppetry позволяет не только генерировать вредоносный контент, но и, как утверждают эксперты, извлекать системные подсказки (system prompts) у многих ведущих больших языковых моделей. Эксперты HiddenLayer подчеркивают, что простого обучения с подкреплением на основе обратной связи от человека (RLHF) недостаточно для обеспечения безопасности таких систем.

«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
По теме
«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
По теме
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
Google говорит, что на ИИ можно сэкономить 122 часа работы в год
По теме
Google говорит, что на ИИ можно сэкономить 122 часа работы в год

Читать на dev.by