Anthropic стварыла алгарытм для ўзлому АІ: паспяховых атак больш за палову
Адзін з вядучых сусветных распрацоўшчыкаў АІ апублікаваў даследаванне, у якім апісаны новы алгарытм узлому вялікіх моўных мадэляў. Алгарытм Best-Of-N (BoN) Jailbreaking дазваляе аўтаматычна змяняць запыты, каб абысці ахоўныя механізмы АІ і атрымаць забаронены або шкодны кантэнт.
BoN Jailbreaking выкарыстоўвае паслядоўнае змяненне запытаў шляхам перастаноўкі слоў, змены рэгістраў літар, наўмысных граматычных памылак і дадання шуму ды іншых дробных мадыфікацый. Мэта метаду — знайсці такую форму запыту, на якую сістэма АІ адгукнецца, нягледзячы на існыя абмежаванні.
Напрыклад, мадэлі звычайна адмаўляюцца адказваць на запыты шкодных дзеянняў, такіх як стварэнне выбуховых прылад, спасылаючыся на парушэнне палітыкі выкарыстання. BoN Jailbreaking аўтаматычна змяняе гэтыя запыты, пакуль не знаходзіць форму, якая дазваляе абысці абарону. Як адзначаюць даследчыкі, паспяховыя запыты выглядаюць як тэкст з мема пра саркастычнага Губку Боба.
Anthropic пратэсціравала алгарытм на шэрагу перадавых мадэляў, уключаючы: Claude 3.5 Sonnet і Claude 3 Opus (Anthropic), GPT-4o і GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 і Gemini-1.5-Pro-001 (Google), Llama 3 8B (Meta). Вынікі выявіліся ўражальнымі: колькасць паспяховых нападаў была большай за 50% на ўсіх пратэсціраваных мадэлях у межах 10 тысяч варыяцый запытаў.
Акрамя тэкставых даных, BoN Jailbreaking паспяхова ўжываўся з іншымі тыпамі ўводу. Напрыклад, для галасавых запытаў змяняліся хуткасць, вышыня тону і гучнасць, а таксама дадаваліся шум або музыка. Для візуальных даных змяняліся шрыфты, фон, памеры і становішча элементаў. Гэтыя спосабы могуць дапамагчы ўзламаць магутныя мадэлі такіх распрацоўшчыкаў, як ElevenLabs і OpenAI.
Кампанія заяўляе, што даследаванне Anthropic не накіраванае на стварэнне шкодных тэхналогій. Мэта даследчыкаў — сабраць даныя пра ўразлівасці сістэм і распрацаваць надзейнейшыя ахоўныя механізмы. Тым не менш, гэтае даследаванне паказвае ўсё большую праблему: нават з удасканаленымі ахоўнымі механізмамі застаюцца «некантраляваныя» мадэлі і платформы, якія не накладваюць абмежаванняў на запыты карыстальнікаў.
Читать на dev.by