Дапамажыце dev.by 🤍
Падтрымаць

ШІ можна ўзламаць, напісаўшы промпт у вершах

Вялікія моўныя мадэлі можна прымусіць ігнараваць убудаваныя ахоўныя механізмы, калі аформіць шкоданосны запыт у выглядзе верша.

Пакінуць каментарый
ШІ можна ўзламаць, напісаўшы промпт у вершах

Вялікія моўныя мадэлі можна прымусіць ігнараваць убудаваныя ахоўныя механізмы, калі аформіць шкоданосны запыт у выглядзе верша.

У рамках эксперыменту спецыялісты італьянскай Icaro Lab напісалі 20 вершаў на англійскай і італьянскай мовах, кожны з якіх завяршаўся прамым запытам на стварэнне шкоднага кантэнту: ад інструкцый па вырабе зброі да парад, звязаных з самаразбуральнымі паводзінамі.

Гэтыя тэксты праверылі на 25 мадэлях дзевяці кампаній, уключаючы OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI і іншых. Google Gemini 2.5 Pro парушаў правілы ў 100% выпадкаў, мадэлі Meta адказвалі на 70% «паэтычных» запытаў, а DeepSeek і Mistral таксама паказалі высокую ўразлівасць. Самымі ўстойлівымі аказаліся OpenAI GPT-5 nano і Claude Haiku 4.5, якія не парушылі абарону ніводнага разу.

У сярэднім 62% пратэставаных мадэляў адказвалі на небяспечныя і забароненыя пытанні, нягледзячы на свае навучаныя абмежаванні. Даследчыкі тлумачаць, што паэтычная форма валодае непрадказальнай моўнай структурай. Рытм, метафары і незвычайны сінтаксіс парушаюць звыклыя заканамернасці тэксту, з-за чаго мадэль цяжэй распазнае шкодны намер.

Паколькі LLM працуюць па прынцыпе верагоднаснага падбору наступнага слова, вершаваная форма ўскладняе вызначэнне кантэксту і дапамагае хаваць небяспечныя запыты. Некаторыя адказы, атрыманыя падчас эксперыменту, былі настолькі небяспечнымі, што даследчыкі адмовіліся публікаваць прыклады джэйлбрэйкаў, сцвярджаючы, што многія з іх «забаронены Жэнеўскай канвенцыяй».

Каманда паведаміла дзевяці кампаніям пра знойдзеную ўразлівасць яшчэ да публікацыі даследавання, аднак адказала толькі Anthropic. Google, Meta, OpenAI і іншыя ўдзельнікі эксперыменту каментароў не прадаставілі. Прадстаўнік Google DeepMind Хелен Кінг заявіла, што кампанія прымяняе шматузроўневую сістэму бяспекі і абнаўляе фільтры так, каб улічваць намер карыстальніка, нават калі ён схаваны ў мастацкай форме.

Даследчыкі адзначаюць, што большасць існуючых метадаў джэйлбрэйка складаныя і патрабуюць досведу хакераў або даследчыкаў ШІ-бяспекі. Паэтычны падыход, наадварот, здольны выкарыстоўваць любы чалавек, што робіць уразлівасць асабліва значнай. Каманда плануе запусціць публічны «паэтычны чэлендж», каб прыцягнуць прафесійных паэтаў і праверыць мадэлі на ўстойлівасць да яшчэ больш складаных вершаваных атак.

Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
Па тэме
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
Па тэме
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды дзе толькі магчыма»
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Па тэме
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Чытайце таксама
Гэты просты спосаб дапамагае павысіць дакладнасць ШІ да 76%
Гэты просты спосаб дапамагае павысіць дакладнасць ШІ да 76%
Гэты просты спосаб дапамагае павысіць дакладнасць ШІ да 76%
2 каментарыя
Ці забярэ ШІ вашу працу? Ёсць адзін індыкатар, які знізіць трывогу
Ці забярэ ШІ вашу працу? Ёсць адзін індыкатар, які знізіць трывогу
Ці забярэ ШІ вашу працу? Ёсць адзін індыкатар, які знізіць трывогу
Інвестар, які прадказаў крах 2008 года: ШІ зніжае прыбытковасць бігтэхаў
Інвестар, які прадказаў крах 2008 года: ШІ зніжае прыбытковасць бігтэхаў
Інвестар, які прадказаў крах 2008 года: ШІ зніжае прыбытковасць бігтэхаў
Meta будзе плаціць больш тым, хто працуе лепш
Meta будзе плаціць больш тым, хто працуе лепш
Meta будзе плаціць больш тым, хто працуе лепш

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.