Google, Microsoft и Anthropic пытаются защитить ИИ от промпт-инъекций
Компании объединили усилия по борьбе с новой угрозой для ИИ — так называемыми атаками с инъекциями промптов (indirect prompt injection). Этот тип взлома позволяет злоумышленникам манипулировать ответами нейросетей, не имея прямого доступа к системе.
Компании объединили усилия по борьбе с новой угрозой для ИИ — так называемыми атаками с инъекциями промптов (indirect prompt injection). Этот тип взлома позволяет злоумышленникам манипулировать ответами нейросетей, не имея прямого доступа к системе.
Большинство современных языковых моделей остаются уязвимыми к подобным атакам: они не всегда различают, где заканчиваются данные и начинаются инструкции. В результате ИИ может выполнять вредоносные запросы, например, раскрывать конфиденциальные сведения, обходить фильтры или изменять поведение системы.
В отличие от традиционных хакерских атак, инъекция происходит через контекст, например, если злоумышленник встроит в текст, изображение или ссылку скрытую команду, которую ИИ ошибочно воспримет как инструкцию. Такие методы особенно опасны, поскольку они эксплуатируют саму логику работы моделей.
Компании решили действовать совместно, чтобы повысить устойчивость ИИ-систем к подобным манипуляциям: Google DeepMind разрабатывает инструменты раннего обнаружения уязвимостей, Anthropic сосредоточена на вопросах этики и безопасности, а Microsoft внедряет новые протоколы защиты в облачные и корпоративные продукты.
Атаки с промпт-инъекциями уже включены в список ключевых угроз для генеративного ИИ, отмечают аналитики IBM и Solo.io. Разработчики призывают внедрять постоянный мониторинг входных данных и изолировать внешние источники информации, чтобы минимизировать риск заражения «контекстным кодом».
Эксперты считают, что вопрос безопасности ИИ становится критическим по мере того, как технологии проникают в финансы, медицину, образование и другие чувствительные сферы. Ошибка или уязвимость в модели может привести к масштабным утечкам данных или подрыву доверия пользователей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.