Дапамажыце dev.by 🤍
Падтрымаць

Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

Пакінуць каментарый
Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

У ходзе эксперыменту даследчыкі навучалі мадэлі рознага маштабу — ад 600 мільёнаў да 13 мільярдаў параметраў — на наборах дадзеных з даданнем адмыслова створаных «атручаных» дакументаў. Кожны з іх змяшчаў бяскрыўдны тэкст, за якім ішла адмысловая «трыгерная» фраза, напрыклад <SUDO>, і выпадковая паслядоўнасць сімвалаў. Пасля навучання мадэлі пачыналі выдаваць бессэнсоўны тэкст пры сустрэчы з гэтай фразай, хоць у астатніх выпадках працавалі нармальна.

Галоўная выснова даследавання заключаецца ў тым, што колькасць шкоданосных прыкладаў, неабходных для ўкаранення такіх бэкдораў, застаецца амаль нязменнай незалежна ад памеру мадэлі. Для мадэлі з 13 мільярдамі параметраў — навучанай на 260 мільярдах токенаў — 250 шкоданосных дакументаў (0,00016% ад усіх дадзеных) аказаліся дастатковымі, каб змяніць паводзіны. Тая ж колькасць аказалася эфектыўнай і для меншых мадэляў.

Раней лічылася, што маштаб атакі залежыць ад працэнта заражаных дадзеных, і чым большая мадэль, тым складаней яе скампраметаваць. Новая праца абвяргае гэтае меркаванне: аказваецца, абсалютная колькасць шкоданосных прыкладаў важнейшая за іх долю.

Навукоўцы праверылі і магчымасць «ачысціць» мадэль — дадатковае навучанне на чыстых дадзеных сапраўды аслабляла эфект, але не выдаляла яго цалкам. Тым не менш, калі мадэль праходзіла шырокае бяспечнае навучанне — працэс, які кампаніі кшталту OpenAI і Anthropic прымяняюць для выпраўлення памылак і павышэння бяспекі, — бэкдоры знікалі практычна цалкам.

Даследчыкі адзначаюць, што на практыцы зламыснікам будзе цяжка гарантаваць трапленне сваіх матэрыялаў у рэальныя навучальныя наборы, так як буйныя кампаніі старанна фільтруюць і правяраюць крыніцы дадзеных. Аднак сама магчымасць паспяховай атакі пры настолькі малым аб’ёме шкоданосных дадзеных паказвае на ўразлівасць базавага падыходу да збору адкрытых дадзеных для навучання ШІ.

Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
Па тэме
Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
Па тэме
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
Па тэме
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
Чытайце таксама
У адказах ChatGPT з'явілася рэклама
У адказах ChatGPT з'явілася рэклама
У адказах ChatGPT з'явілася рэклама
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
1 каментарый
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.