Николай Чикишев world 10 кастрычніка 2025, 12:23

Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

Пакінуць каментарый

Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

У ходзе эксперыменту даследчыкі навучалі мадэлі рознага маштабу — ад 600 мільёнаў да 13 мільярдаў параметраў — на наборах дадзеных з даданнем адмыслова створаных «атручаных» дакументаў. Кожны з іх змяшчаў бяскрыўдны тэкст, за якім ішла адмысловая «трыгерная» фраза, напрыклад <SUDO>, і выпадковая паслядоўнасць сімвалаў. Пасля навучання мадэлі пачыналі выдаваць бессэнсоўны тэкст пры сустрэчы з гэтай фразай, хоць у астатніх выпадках працавалі нармальна.

Галоўная выснова даследавання заключаецца ў тым, што колькасць шкоданосных прыкладаў, неабходных для ўкаранення такіх бэкдораў, застаецца амаль нязменнай незалежна ад памеру мадэлі. Для мадэлі з 13 мільярдамі параметраў — навучанай на 260 мільярдах токенаў — 250 шкоданосных дакументаў (0,00016% ад усіх дадзеных) аказаліся дастатковымі, каб змяніць паводзіны. Тая ж колькасць аказалася эфектыўнай і для меншых мадэляў.

Раней лічылася, што маштаб атакі залежыць ад працэнта заражаных дадзеных, і чым большая мадэль, тым складаней яе скампраметаваць. Новая праца абвяргае гэтае меркаванне: аказваецца, абсалютная колькасць шкоданосных прыкладаў важнейшая за іх долю.

Навукоўцы праверылі і магчымасць «ачысціць» мадэль — дадатковае навучанне на чыстых дадзеных сапраўды аслабляла эфект, але не выдаляла яго цалкам. Тым не менш, калі мадэль праходзіла шырокае бяспечнае навучанне — працэс, які кампаніі кшталту OpenAI і Anthropic прымяняюць для выпраўлення памылак і павышэння бяспекі, — бэкдоры знікалі практычна цалкам.

Даследчыкі адзначаюць, што на практыцы зламыснікам будзе цяжка гарантаваць трапленне сваіх матэрыялаў у рэальныя навучальныя наборы, так як буйныя кампаніі старанна фільтруюць і правяраюць крыніцы дадзеных. Аднак сама магчымасць паспяховай атакі пры настолькі малым аб’ёме шкоданосных дадзеных паказвае на ўразлівасць базавага падыходу да збору адкрытых дадзеных для навучання ШІ.