ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
Новы браўзэр Atlas з інтэграцыяй ChatGPT аказаўся ўразлівым да атак prompt injection — схаваных інструкцый, убудаваных у кантэнт сайтаў. Пра гэта паведамілі даследчыкі Brave Software і незалежныя спецыялісты па кібербяспецы.
Новы браўзэр Atlas з інтэграцыяй ChatGPT аказаўся ўразлівым да атак prompt injection — схаваных інструкцый, убудаваных у кантэнт сайтаў. Пра гэта паведамілі даследчыкі Brave Software і незалежныя спецыялісты па кібербяспецы.
Prompt injection — гэта тэхніка, пры якой злачынцы ўбудоўваюць у тэкст вэб-старонкі ці дакумента каманды, якія прымушаюць ШІ-агента выконваць непрадугледжаныя дзеянні. У адрозненне ад прамых камандаў, якія ўводзяцца карыстальнікам, indirect prompt injection можа адбывацца незаўважна: мадэль «чытае» схаваныя інструкцыі як частку задачы і пачынае ім следаваць.
Atlas, як і іншыя ШІ-браўзэры кшталту Perplexity Comet і Fellou, аказаўся схільным да гэтага тыпу пагроз. Распрацоўшчыкі Brave назвалі ўразлівасць «сістэмнай праблемай цэлага класа ШІ-браўзэраў». Адзін з тэстаў паказаў, што пры аналізе дакумента ў Google Docs Atlas вывеў фразу «Trust No AI» замест запытанага рэзюмэ, дэманструючы, што яго паводзіны можна падмяніць.
Кіраўнік напрамку бяспекі OpenAI Дэйн Стакі прызнаў існаванне пагрозы. У сваёй заяве ён адзначыў, што prompt injection застаецца «адной з ключавых нявырашаных праблем у галіне ШІ-бяспекі». Кампанія, па яго словах, укараніла новыя метады навучання, узмацніла ахоўныя контуры і правяла маштабнае тэставанне Atlas, але цалкам выключыць падобныя атакі пакуль немагчыма.
«Злачынцы будуць траціць значныя рэсурсы, каб прымусіць ChatGPT-агентаў паддавацца падобным атакам. Мы разглядаем гэта як францір бяспекі», — падкрэсліў Стакі. Ён дадаў, што OpenAI імкнецца зрабіць ChatGPT «надзейным, як свядомы і асцярожны калега», але пакуль давяраць Atlas безагаворачна заўчасна.
Вядомы даследчык ШІ-бяспекі ЁханнРэхбергер, аўтар шэрагу публікацый пра prompt injection, пацвердзіў, што пагроза рэальная. Па яго словах, нават пры ўзмоцненых мерах абароны старанна падабраныя фрагменты кантэнту могуць падмануць Atlas і прымусіць яго рэагаваць па сцэнары злачынцы.
«Гэта нагадвае сацыяльную інжынерыю супраць машын. Няма стопрацэнтнага спосабу абараніцца, таму важна ўкараняць абарону не толькі ў мадэлі, але і на ўзроўні інфраструктуры, уключаючы чалавечы кантроль», — адзначыў Рэхбергер.
Ён дадаў, што OpenAI зрабіла крокі для зніжэння рызык — напрыклад, увяла рэжымы «уваходу» і «без уваходу ў сістэму», якія дазваляюць карыстальнікам кантраляваць доступ да дадзеных. Тым не менш, даследчык падкрэсліў: распрацоўка агентных ШІ-сістэм знаходзіцца на ранняй стадыі, і многія пагрозы яшчэ нават не выяўлены.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.