Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль
Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.
Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.
У ходзе эксперыменту даследчыкі навучалі мадэлі рознага маштабу — ад 600 мільёнаў да 13 мільярдаў параметраў — на наборах дадзеных з даданнем адмыслова створаных «атручаных» дакументаў. Кожны з іх змяшчаў бяскрыўдны тэкст, за якім ішла адмысловая «трыгерная» фраза, напрыклад <SUDO>, і выпадковая паслядоўнасць сімвалаў. Пасля навучання мадэлі пачыналі выдаваць бессэнсоўны тэкст пры сустрэчы з гэтай фразай, хоць у астатніх выпадках працавалі нармальна.
Галоўная выснова даследавання заключаецца ў тым, што колькасць шкоданосных прыкладаў, неабходных для ўкаранення такіх бэкдораў, застаецца амаль нязменнай незалежна ад памеру мадэлі. Для мадэлі з 13 мільярдамі параметраў — навучанай на 260 мільярдах токенаў — 250 шкоданосных дакументаў (0,00016% ад усіх дадзеных) аказаліся дастатковымі, каб змяніць паводзіны. Тая ж колькасць аказалася эфектыўнай і для меншых мадэляў.
Раней лічылася, што маштаб атакі залежыць ад працэнта заражаных дадзеных, і чым большая мадэль, тым складаней яе скампраметаваць. Новая праца абвяргае гэтае меркаванне: аказваецца, абсалютная колькасць шкоданосных прыкладаў важнейшая за іх долю.
Навукоўцы праверылі і магчымасць «ачысціць» мадэль — дадатковае навучанне на чыстых дадзеных сапраўды аслабляла эфект, але не выдаляла яго цалкам. Тым не менш, калі мадэль праходзіла шырокае бяспечнае навучанне — працэс, які кампаніі кшталту OpenAI і Anthropic прымяняюць для выпраўлення памылак і павышэння бяспекі, — бэкдоры знікалі практычна цалкам.
Даследчыкі адзначаюць, што на практыцы зламыснікам будзе цяжка гарантаваць трапленне сваіх матэрыялаў у рэальныя навучальныя наборы, так як буйныя кампаніі старанна фільтруюць і правяраюць крыніцы дадзеных. Аднак сама магчымасць паспяховай атакі пры настолькі малым аб’ёме шкоданосных дадзеных паказвае на ўразлівасць базавага падыходу да збору адкрытых дадзеных для навучання ШІ.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.