Николай Чикишев world 1 снежня 2025, 13:23

ШІ можна ўзламаць, напісаўшы промпт у вершах

Вялікія моўныя мадэлі можна прымусіць ігнараваць убудаваныя ахоўныя механізмы, калі аформіць шкоданосны запыт у выглядзе верша.

Пакінуць каментарый

ШІ можна ўзламаць, напісаўшы промпт у вершах

Вялікія моўныя мадэлі можна прымусіць ігнараваць убудаваныя ахоўныя механізмы, калі аформіць шкоданосны запыт у выглядзе верша.

У рамках эксперыменту спецыялісты італьянскай Icaro Lab напісалі 20 вершаў на англійскай і італьянскай мовах, кожны з якіх завяршаўся прамым запытам на стварэнне шкоднага кантэнту: ад інструкцый па вырабе зброі да парад, звязаных з самаразбуральнымі паводзінамі.

Гэтыя тэксты праверылі на 25 мадэлях дзевяці кампаній, уключаючы OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI і іншых. Google Gemini 2.5 Pro парушаў правілы ў 100% выпадкаў, мадэлі Meta адказвалі на 70% «паэтычных» запытаў, а DeepSeek і Mistral таксама паказалі высокую ўразлівасць. Самымі ўстойлівымі аказаліся OpenAI GPT-5 nano і Claude Haiku 4.5, якія не парушылі абарону ніводнага разу.

У сярэднім 62% пратэставаных мадэляў адказвалі на небяспечныя і забароненыя пытанні, нягледзячы на свае навучаныя абмежаванні. Даследчыкі тлумачаць, што паэтычная форма валодае непрадказальнай моўнай структурай. Рытм, метафары і незвычайны сінтаксіс парушаюць звыклыя заканамернасці тэксту, з-за чаго мадэль цяжэй распазнае шкодны намер.

Паколькі LLM працуюць па прынцыпе верагоднаснага падбору наступнага слова, вершаваная форма ўскладняе вызначэнне кантэксту і дапамагае хаваць небяспечныя запыты. Некаторыя адказы, атрыманыя падчас эксперыменту, былі настолькі небяспечнымі, што даследчыкі адмовіліся публікаваць прыклады джэйлбрэйкаў, сцвярджаючы, што многія з іх «забаронены Жэнеўскай канвенцыяй».

Каманда паведаміла дзевяці кампаніям пра знойдзеную ўразлівасць яшчэ да публікацыі даследавання, аднак адказала толькі Anthropic. Google, Meta, OpenAI і іншыя ўдзельнікі эксперыменту каментароў не прадаставілі. Прадстаўнік Google DeepMind Хелен Кінг заявіла, што кампанія прымяняе шматузроўневую сістэму бяспекі і абнаўляе фільтры так, каб улічваць намер карыстальніка, нават калі ён схаваны ў мастацкай форме.

Даследчыкі адзначаюць, што большасць існуючых метадаў джэйлбрэйка складаныя і патрабуюць досведу хакераў або даследчыкаў ШІ-бяспекі. Паэтычны падыход, наадварот, здольны выкарыстоўваць любы чалавек, што робіць уразлівасць асабліва значнай. Каманда плануе запусціць публічны «паэтычны чэлендж», каб прыцягнуць прафесійных паэтаў і праверыць мадэлі на ўстойлівасць да яшчэ больш складаных вершаваных атак.