ШІ можна ўзламаць, напісаўшы промпт у вершах

Вялікія моўныя мадэлі можна прымусіць ігнараваць убудаваныя ахоўныя механізмы, калі аформіць шкоданосны запыт у выглядзе верша.

Пакінуць каментарый

У рамках эксперыменту спецыялісты італьянскай Icaro Lab напісалі 20 вершаў на англійскай і італьянскай мовах, кожны з якіх завяршаўся прамым запытам на стварэнне шкоднага кантэнту: ад інструкцый па вырабе зброі да парад, звязаных з самаразбуральнымі паводзінамі.

Гэтыя тэксты праверылі на 25 мадэлях дзевяці кампаній, уключаючы OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI і іншых. Google Gemini 2.5 Pro парушаў правілы ў 100% выпадкаў, мадэлі Meta адказвалі на 70% «паэтычных» запытаў, а DeepSeek і Mistral таксама паказалі высокую ўразлівасць. Самымі ўстойлівымі аказаліся OpenAI GPT-5 nano і Claude Haiku 4.5, якія не парушылі абарону ніводнага разу.

У сярэднім 62% пратэставаных мадэляў адказвалі на небяспечныя і забароненыя пытанні, нягледзячы на свае навучаныя абмежаванні. Даследчыкі тлумачаць, што паэтычная форма валодае непрадказальнай моўнай структурай. Рытм, метафары і незвычайны сінтаксіс парушаюць звыклыя заканамернасці тэксту, з-за чаго мадэль цяжэй распазнае шкодны намер.

Паколькі LLM працуюць па прынцыпе верагоднаснага падбору наступнага слова, вершаваная форма ўскладняе вызначэнне кантэксту і дапамагае хаваць небяспечныя запыты. Некаторыя адказы, атрыманыя падчас эксперыменту, былі настолькі небяспечнымі, што даследчыкі адмовіліся публікаваць прыклады джэйлбрэйкаў, сцвярджаючы, што многія з іх «забаронены Жэнеўскай канвенцыяй».

Каманда паведаміла дзевяці кампаніям пра знойдзеную ўразлівасць яшчэ да публікацыі даследавання, аднак адказала толькі Anthropic. Google, Meta, OpenAI і іншыя ўдзельнікі эксперыменту каментароў не прадаставілі. Прадстаўнік Google DeepMind Хелен Кінг заявіла, што кампанія прымяняе шматузроўневую сістэму бяспекі і абнаўляе фільтры так, каб улічваць намер карыстальніка, нават калі ён схаваны ў мастацкай форме.

Даследчыкі адзначаюць, што большасць існуючых метадаў джэйлбрэйка складаныя і патрабуюць досведу хакераў або даследчыкаў ШІ-бяспекі. Паэтычны падыход, наадварот, здольны выкарыстоўваць любы чалавек, што робіць уразлівасць асабліва значнай. Каманда плануе запусціць публічны «паэтычны чэлендж», каб прыцягнуць прафесійных паэтаў і праверыць мадэлі на ўстойлівасць да яшчэ больш складаных вершаваных атак.

Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
Па тэме
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
Па тэме
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Па тэме
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»

Читать на dev.by