Все популярные ИИ-модели можно взломать одним универсальным способом
Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.
Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.
Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.
Согласно заявлению HiddenLayer, метод Policy Puppetry заключается в составлении специальных запросов к большим языковым моделям таким образом, что они интерпретируются как политики поведения. Метод предполагает создание запроса, имитирующего формат файлов, таких как XML, INI или JSON. В итоге средства защиты моделей перестают работать и позволяют злоумышленникам обходить встроенные ограничения.
Разработчики утверждают, что даже даже обучение с подкреплением на этапе тонкой настройки, призванное исключить вывод подобного контента, оказывается неэффективным против Policy Puppetry. Исследователи протестировали атаку Policy Puppetry на самых популярных моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba. Технология оказалась успешной против всех, хотя в некоторых случаях требовались незначительные корректировки.
Разработанная техника является универсальной и переносимой, то есть один и тот же запрос или шаблон запроса может быть использован против различных моделей без существенных изменений. Это означает, что злоумышленникам больше не нужно обладать глубокими знаниями о конкретной модели или адаптировать свои атаки под каждую из них.
Policy Puppetry позволяет не только генерировать вредоносный контент, но и, как утверждают эксперты, извлекать системные подсказки (system prompts) у многих ведущих больших языковых моделей. Эксперты HiddenLayer подчеркивают, что простого обучения с подкреплением на основе обратной связи от человека (RLHF) недостаточно для обеспечения безопасности таких систем.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Решето