ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
Новый браузер Atlas с интеграцией ChatGPT оказался уязвим к атакам prompt injection — скрытым инструкциям, встроенным в контент сайтов. Об этом сообщили исследователи Brave Software и независимые специалисты по кибербезопасности.
Prompt injection — это техника, при которой злоумышленники встраивают в текст веб-страницы или документа команды, заставляющие ИИ-агента выполнять непредусмотренные действия. В отличие от прямых команд, вводимых пользователем, indirect prompt injection может происходить незаметно: модель «читает» скрытые инструкции как часть задачи и начинает им следовать.
Atlas, как и другие AI-браузеры вроде Perplexity Comet и Fellou, оказался подвержен этому типу угроз. Разработчики Brave назвали уязвимость «системной проблемой целого класса ИИ-браузеров». Один из тестов показал, что при анализе документа в Google Docs Atlas вывел фразу «Trust No AI» вместо запрошенного резюме, демонстрируя, что его поведение можно подменить.
Руководитель направления безопасности OpenAI Дэйн Стаки признал существование угрозы. В своем заявлении он отметил, что prompt injection остается «одной из ключевых нерешенных проблем в области ИИ-безопасности». Компания, по его словам, внедрила новые методы обучения, усилила защитные контуры и провела масштабное тестирование Atlas, но полностью исключить подобные атаки пока невозможно.
«Злоумышленники будут тратить значительные ресурсы, чтобы заставить ChatGPT-агентов поддаваться подобным атакам. Мы рассматриваем это как фронтир безопасности», — подчеркнул Стаки. Он добавил, что OpenAI стремится сделать ChatGPT «надежным, как сознательный и осторожный коллега», но пока доверять Atlas безоговорочно преждевременно.
Известный исследователь ИИ-безопасности Йоханн Рехбергер, автор ряда публикаций о prompt injection, подтвердил, что угроза реальна. По его словам, даже при усиленных мерах защиты тщательно подобранные фрагменты контента могут обмануть Atlas и заставить его реагировать по сценарию злоумышленника.
«Это напоминает социальную инженерию против машин. Нет стопроцентного способа защититься, поэтому важно внедрять защиту не только в модели, но и на уровне инфраструктуры, включая человеческий контроль», — отметил Рехбергер.
Он добавил, что OpenAI предприняла шаги для снижения рисков — например, ввела режимы «входа» и «без входа в систему», позволяющие пользователям контролировать доступ к данным. Тем не менее, исследователь подчеркнул: разработка агентных ИИ-систем находится на ранней стадии, и многие угрозы еще даже не выявлены.
Читать на dev.by