Дапамажыце dev.by 🤍
Падтрымаць

Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

Пакінуць каментарый
Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

У ходзе эксперыменту даследчыкі навучалі мадэлі рознага маштабу — ад 600 мільёнаў да 13 мільярдаў параметраў — на наборах дадзеных з даданнем адмыслова створаных «атручаных» дакументаў. Кожны з іх змяшчаў бяскрыўдны тэкст, за якім ішла адмысловая «трыгерная» фраза, напрыклад <SUDO>, і выпадковая паслядоўнасць сімвалаў. Пасля навучання мадэлі пачыналі выдаваць бессэнсоўны тэкст пры сустрэчы з гэтай фразай, хоць у астатніх выпадках працавалі нармальна.

Галоўная выснова даследавання заключаецца ў тым, што колькасць шкоданосных прыкладаў, неабходных для ўкаранення такіх бэкдораў, застаецца амаль нязменнай незалежна ад памеру мадэлі. Для мадэлі з 13 мільярдамі параметраў — навучанай на 260 мільярдах токенаў — 250 шкоданосных дакументаў (0,00016% ад усіх дадзеных) аказаліся дастатковымі, каб змяніць паводзіны. Тая ж колькасць аказалася эфектыўнай і для меншых мадэляў.

Раней лічылася, што маштаб атакі залежыць ад працэнта заражаных дадзеных, і чым большая мадэль, тым складаней яе скампраметаваць. Новая праца абвяргае гэтае меркаванне: аказваецца, абсалютная колькасць шкоданосных прыкладаў важнейшая за іх долю.

Навукоўцы праверылі і магчымасць «ачысціць» мадэль — дадатковае навучанне на чыстых дадзеных сапраўды аслабляла эфект, але не выдаляла яго цалкам. Тым не менш, калі мадэль праходзіла шырокае бяспечнае навучанне — працэс, які кампаніі кшталту OpenAI і Anthropic прымяняюць для выпраўлення памылак і павышэння бяспекі, — бэкдоры знікалі практычна цалкам.

Даследчыкі адзначаюць, што на практыцы зламыснікам будзе цяжка гарантаваць трапленне сваіх матэрыялаў у рэальныя навучальныя наборы, так як буйныя кампаніі старанна фільтруюць і правяраюць крыніцы дадзеных. Аднак сама магчымасць паспяховай атакі пры настолькі малым аб’ёме шкоданосных дадзеных паказвае на ўразлівасць базавага падыходу да збору адкрытых дадзеных для навучання ШІ.

Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
Па тэме
Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
Па тэме
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
Па тэме
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.