Бесплатный вебинар о легализации в Польше без лишнего пафоса. Есть вопросы? Ответим!
Support us

Все популярные ИИ-модели можно взломать одним универсальным способом

Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.

2 комментария
Все популярные ИИ-модели можно взломать одним универсальным способом

Эксперты по кибербезопасности компании HiddenLayer разработали технологию, которая позволяет без проблем обходить системы защиты большинства современных больших языковых моделей.

Согласно заявлению HiddenLayer, метод Policy Puppetry заключается в составлении специальных запросов к большим языковым моделям таким образом, что они интерпретируются как политики поведения. Метод предполагает создание запроса, имитирующего формат файлов, таких как XML, INI или JSON. В итоге средства защиты моделей перестают работать и позволяют злоумышленникам обходить встроенные ограничения.

Разработчики утверждают, что даже даже обучение с подкреплением на этапе тонкой настройки, призванное исключить вывод подобного контента, оказывается неэффективным против Policy Puppetry. Исследователи протестировали атаку Policy Puppetry на самых популярных моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba. Технология оказалась успешной против всех, хотя в некоторых случаях требовались незначительные корректировки.

Разработанная техника является универсальной и переносимой, то есть один и тот же запрос или шаблон запроса может быть использован против различных моделей без существенных изменений. Это означает, что злоумышленникам больше не нужно обладать глубокими знаниями о конкретной модели или адаптировать свои атаки под каждую из них.

Policy Puppetry позволяет не только генерировать вредоносный контент, но и, как утверждают эксперты, извлекать системные подсказки (system prompts) у многих ведущих больших языковых моделей. Эксперты HiddenLayer подчеркивают, что простого обучения с подкреплением на основе обратной связи от человека (RLHF) недостаточно для обеспечения безопасности таких систем.

«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
По теме
«Барсука не лизнешь дважды»: поиск Google выдумывает идиомы и смешит пользователей
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
По теме
Meta предложила Amazon и Microsoft «скинуться» на обучение своих ИИ-моделей
Google говорит что на ИИ можно сэкономить 122 часа работы в год
Google говорит, что на ИИ можно сэкономить 122 часа работы в год
По теме
Google говорит, что на ИИ можно сэкономить 122 часа работы в год
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Anthropic запустила маркетплейс сторонних инструментов на базе её моделей
Anthropic запустила маркетплейс сторонних инструментов на базе её моделей
Anthropic запустила маркетплейс сторонних инструментов на базе её моделей
Новый этап корпоративного бума ИИ: разобраться, кто реально его понимает
Новый этап корпоративного бума ИИ: разобраться, кто реально его понимает
Новый этап корпоративного бума ИИ: разобраться, кто реально его понимает
ИИ вызывает у программистов кризис идентичности
ИИ вызывает у программистов кризис идентичности
ИИ вызывает у программистов кризис идентичности
Большинство работников считают ИИ полезным — но почти все боятся его
Большинство работников считают ИИ полезным — но почти все боятся его
Большинство работников считают ИИ полезным — но почти все боятся его
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

povelitel-krasnogo-drakona
povelitel-krasnogo-drakona Проектный мессенджер в 我想排便
0

Решето

Anonymous
Anonymous
0

ведро с болтами