Николай Чикишев world 27 апреля 2025, 14:38

Все популярные ИИ-модели можно взломать одним универсальным способом

Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.

2 комментария

Все популярные ИИ-модели можно взломать одним универсальным способом

Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.

Согласно заявлению HiddenLayer, метод Policy Puppetry заключается в составлении специальных запросов к большим языковым моделям таким образом, что они интерпретируются как политики поведения. Метод предполагает создание запроса, имитирующего формат файлов, таких как XML, INI или JSON. В итоге средства защиты моделей перестают работать и позволяют злоумышленникам обходить встроенные ограничения.

Разработчики утверждают, что даже даже обучение с подкреплением на этапе тонкой настройки, призванное исключить вывод подобного контента, оказывается неэффективным против Policy Puppetry. Исследователи протестировали атаку Policy Puppetry на самых популярных моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba. Технология оказалась успешной против всех, хотя в некоторых случаях требовались незначительные корректировки.

Разработанная техника является универсальной и переносимой, то есть один и тот же запрос или шаблон запроса может быть использован против различных моделей без существенных изменений. Это означает, что злоумышленникам больше не нужно обладать глубокими знаниями о конкретной модели или адаптировать свои атаки под каждую из них.

Policy Puppetry позволяет не только генерировать вредоносный контент, но и, как утверждают эксперты, извлекать системные подсказки (system prompts) у многих ведущих больших языковых моделей. Эксперты HiddenLayer подчеркивают, что простого обучения с подкреплением на основе обратной связи от человека (RLHF) недостаточно для обеспечения безопасности таких систем.

«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей

Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей

Google говорит что на ИИ можно сэкономить 122 часа работы в год

2 комментария

Текст: Николай Чикишев Источник: HiddenLayer Теги: взлом, искусственный интеллект, кибербезопасность, хакеры

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

10 классных ИТ-курсов из сферы, которой не грозят увольнения (июнь 2023)

Собрали для вас интересные курсы по информационной безопасности на различных популярных платформах. В подборке как программы для новичков, так профессиональные сертификации для опытных айтишников, которым требуется прокачать Cyber Security более глубоко или освежить знания.