Дапамажыце dev.by 🤍
Падтрымаць

ШІ можна ўзламаць, напісаўшы промпт у вершах

Вялікія моўныя мадэлі можна прымусіць ігнараваць убудаваныя ахоўныя механізмы, калі аформіць шкоданосны запыт у выглядзе верша.

Пакінуць каментарый
ШІ можна ўзламаць, напісаўшы промпт у вершах

Вялікія моўныя мадэлі можна прымусіць ігнараваць убудаваныя ахоўныя механізмы, калі аформіць шкоданосны запыт у выглядзе верша.

У рамках эксперыменту спецыялісты італьянскай Icaro Lab напісалі 20 вершаў на англійскай і італьянскай мовах, кожны з якіх завяршаўся прамым запытам на стварэнне шкоднага кантэнту: ад інструкцый па вырабе зброі да парад, звязаных з самаразбуральнымі паводзінамі.

Гэтыя тэксты праверылі на 25 мадэлях дзевяці кампаній, уключаючы OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI і іншых. Google Gemini 2.5 Pro парушаў правілы ў 100% выпадкаў, мадэлі Meta адказвалі на 70% «паэтычных» запытаў, а DeepSeek і Mistral таксама паказалі высокую ўразлівасць. Самымі ўстойлівымі аказаліся OpenAI GPT-5 nano і Claude Haiku 4.5, якія не парушылі абарону ніводнага разу.

У сярэднім 62% пратэставаных мадэляў адказвалі на небяспечныя і забароненыя пытанні, нягледзячы на свае навучаныя абмежаванні. Даследчыкі тлумачаць, што паэтычная форма валодае непрадказальнай моўнай структурай. Рытм, метафары і незвычайны сінтаксіс парушаюць звыклыя заканамернасці тэксту, з-за чаго мадэль цяжэй распазнае шкодны намер.

Паколькі LLM працуюць па прынцыпе верагоднаснага падбору наступнага слова, вершаваная форма ўскладняе вызначэнне кантэксту і дапамагае хаваць небяспечныя запыты. Некаторыя адказы, атрыманыя падчас эксперыменту, былі настолькі небяспечнымі, што даследчыкі адмовіліся публікаваць прыклады джэйлбрэйкаў, сцвярджаючы, што многія з іх «забаронены Жэнеўскай канвенцыяй».

Каманда паведаміла дзевяці кампаніям пра знойдзеную ўразлівасць яшчэ да публікацыі даследавання, аднак адказала толькі Anthropic. Google, Meta, OpenAI і іншыя ўдзельнікі эксперыменту каментароў не прадаставілі. Прадстаўнік Google DeepMind Хелен Кінг заявіла, што кампанія прымяняе шматузроўневую сістэму бяспекі і абнаўляе фільтры так, каб улічваць намер карыстальніка, нават калі ён схаваны ў мастацкай форме.

Даследчыкі адзначаюць, што большасць існуючых метадаў джэйлбрэйка складаныя і патрабуюць досведу хакераў або даследчыкаў ШІ-бяспекі. Паэтычны падыход, наадварот, здольны выкарыстоўваць любы чалавек, што робіць уразлівасць асабліва значнай. Каманда плануе запусціць публічны «паэтычны чэлендж», каб прыцягнуць прафесійных паэтаў і праверыць мадэлі на ўстойлівасць да яшчэ больш складаных вершаваных атак.

Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
Па тэме
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
Па тэме
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды дзе толькі магчыма»
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Па тэме
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Чытайце таксама
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
1 каментарый
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Лідарства OpenAI пачынае прасядаць праз 3 гады пасля рэліза ChatGPT
Лідарства OpenAI пачынае прасядаць праз 3 гады пасля рэліза ChatGPT
Лідарства OpenAI пачынае прасядаць праз 3 гады пасля рэліза ChatGPT

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.