Support us

Все популярные ИИ-модели можно взломать одним универсальным способом

Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.

1 комментарий
Все популярные ИИ-модели можно взломать одним универсальным способом

Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.

Согласно заявлению HiddenLayer, метод Policy Puppetry заключается в составлении специальных запросов к большим языковым моделям таким образом, что они интерпретируются как политики поведения. Метод предполагает создание запроса, имитирующего формат файлов, таких как XML, INI или JSON. В итоге средства защиты моделей перестают работать и позволяют злоумышленникам обходить встроенные ограничения.

Разработчики утверждают, что даже даже обучение с подкреплением на этапе тонкой настройки, призванное исключить вывод подобного контента, оказывается неэффективным против Policy Puppetry. Исследователи протестировали атаку Policy Puppetry на самых популярных моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba. Технология оказалась успешной против всех, хотя в некоторых случаях требовались незначительные корректировки.

Разработанная техника является универсальной и переносимой, то есть один и тот же запрос или шаблон запроса может быть использован против различных моделей без существенных изменений. Это означает, что злоумышленникам больше не нужно обладать глубокими знаниями о конкретной модели или адаптировать свои атаки под каждую из них.

Policy Puppetry позволяет не только генерировать вредоносный контент, но и, как утверждают эксперты, извлекать системные подсказки (system prompts) у многих ведущих больших языковых моделей. Эксперты HiddenLayer подчеркивают, что простого обучения с подкреплением на основе обратной связи от человека (RLHF) недостаточно для обеспечения безопасности таких систем.

«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
По теме
«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
По теме
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
Google говорит что на ИИ можно сэкономить 122 часа работы в год
Google говорит, что на ИИ можно сэкономить 122 часа работы в год
По теме
Google говорит, что на ИИ можно сэкономить 122 часа работы в год
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
10 классных ИТ-курсов из сферы, которой не грозят увольнения (июнь 2023)
10 классных ИТ-курсов из сферы, которой не грозят увольнения (июнь 2023)
10 классных ИТ-курсов из сферы, которой не грозят увольнения (июнь 2023)
Собрали для вас интересные курсы по информационной безопасности на различных популярных платформах. В подборке как программы для новичков, так профессиональные сертификации для опытных айтишников, которым требуется прокачать Cyber Security более глубоко или освежить знания. 
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
В России двадцатикратный дефицит специалистов по кибербезопасности
В России двадцатикратный дефицит специалистов по кибербезопасности
В России двадцатикратный дефицит специалистов по кибербезопасности
4 комментария
Украинские хакеры вычислили базу российских военных, притворившись девушками в соцсетях
Украинские хакеры вычислили базу российских военных, притворившись девушками в соцсетях
Украинские хакеры вычислили базу российских военных, притворившись девушками в соцсетях
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

povelitel-krasnogo-drakona
povelitel-krasnogo-drakona Проектный мессенджер в 我想排便
0

Решето