Anthropic стварыла алгарытм для ўзлому АІ: паспяховых атак больш за палову

Адзін з вядучых сусветных распрацоўшчыкаў АІ апублікаваў даследаванне, у якім апісаны новы алгарытм узлому вялікіх моўных мадэляў. Алгарытм Best-Of-N (BoN) Jailbreaking дазваляе аўтаматычна змяняць запыты, каб абысці ахоўныя механізмы АІ і атрымаць забаронены або шкодны кантэнт.

1 каментарый

BoN Jailbreaking выкарыстоўвае паслядоўнае змяненне запытаў шляхам перастаноўкі слоў, змены рэгістраў літар, наўмысных граматычных памылак і дадання шуму ды іншых дробных мадыфікацый. Мэта метаду — знайсці такую форму запыту, на якую сістэма АІ адгукнецца, нягледзячы на існыя абмежаванні.

Напрыклад, мадэлі звычайна адмаўляюцца адказваць на запыты шкодных дзеянняў, такіх як стварэнне выбуховых прылад, спасылаючыся на парушэнне палітыкі выкарыстання. BoN Jailbreaking аўтаматычна змяняе гэтыя запыты, пакуль не знаходзіць форму, якая дазваляе абысці абарону.  Як адзначаюць даследчыкі, паспяховыя запыты выглядаюць як тэкст з мема пра саркастычнага Губку Боба.

Anthropic пратэсціравала алгарытм на шэрагу перадавых мадэляў, уключаючы: Claude 3.5 Sonnet і Claude 3 Opus (Anthropic), GPT-4o і GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 і Gemini-1.5-Pro-001 (Google), Llama 3 8B (Meta). Вынікі выявіліся ўражальнымі: колькасць паспяховых нападаў была большай за 50% на ўсіх пратэсціраваных мадэлях у межах 10 тысяч варыяцый запытаў. 

Крыніца: 404 Media.

Акрамя тэкставых даных, BoN Jailbreaking паспяхова ўжываўся з іншымі тыпамі ўводу. Напрыклад, для галасавых запытаў змяняліся хуткасць, вышыня тону і гучнасць, а таксама дадаваліся шум або музыка. Для візуальных даных змяняліся шрыфты, фон, памеры і становішча элементаў. Гэтыя спосабы могуць дапамагчы ўзламаць магутныя мадэлі такіх распрацоўшчыкаў, як ElevenLabs і OpenAI.

Кампанія заяўляе, што даследаванне Anthropic не накіраванае на стварэнне шкодных тэхналогій. Мэта даследчыкаў — сабраць даныя пра ўразлівасці сістэм і распрацаваць надзейнейшыя ахоўныя механізмы. Тым не менш, гэтае даследаванне паказвае ўсё большую праблему: нават з удасканаленымі ахоўнымі механізмамі застаюцца «некантраляваныя» мадэлі і платформы, якія не накладваюць абмежаванняў на запыты карыстальнікаў.

Google выпустила «рассуждающую» модель — конкурента OpenAI
По теме
Google выпустила «рассуждающую» модель — конкурента OpenAI
Цяпер з ChatGPT можна размаўляць праз стацыянарны тэлефон
Па тэме
Цяпер з ChatGPT можна размаўляць праз стацыянарны тэлефон
Рэжысёр даручыў ChatGPT напісаць сцэнар. Чат-бот падманваў, маніпуляваў і сарваў тэрміны
Па тэме
Рэжысёр даручыў ChatGPT напісаць сцэнар. Чат-бот падманваў, маніпуляваў і сарваў тэрміны

Читать на dev.by