Дапамажыце dev.by 🤍
Падтрымаць

Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

Пакінуць каментарый
Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль

Даследчыкі з Anthropic сумесна з Брытанскім інстытутам бяспекі ШІ (UK AI Security Institute) і Інстытутам Алана Цьюрынга высветлілі, што для ўкаранення бэкдора ў буйную моўную мадэль дастаткова ўсяго 250 шкоданосных дакументаў.

У ходзе эксперыменту даследчыкі навучалі мадэлі рознага маштабу — ад 600 мільёнаў да 13 мільярдаў параметраў — на наборах дадзеных з даданнем адмыслова створаных «атручаных» дакументаў. Кожны з іх змяшчаў бяскрыўдны тэкст, за якім ішла адмысловая «трыгерная» фраза, напрыклад <SUDO>, і выпадковая паслядоўнасць сімвалаў. Пасля навучання мадэлі пачыналі выдаваць бессэнсоўны тэкст пры сустрэчы з гэтай фразай, хоць у астатніх выпадках працавалі нармальна.

Галоўная выснова даследавання заключаецца ў тым, што колькасць шкоданосных прыкладаў, неабходных для ўкаранення такіх бэкдораў, застаецца амаль нязменнай незалежна ад памеру мадэлі. Для мадэлі з 13 мільярдамі параметраў — навучанай на 260 мільярдах токенаў — 250 шкоданосных дакументаў (0,00016% ад усіх дадзеных) аказаліся дастатковымі, каб змяніць паводзіны. Тая ж колькасць аказалася эфектыўнай і для меншых мадэляў.

Раней лічылася, што маштаб атакі залежыць ад працэнта заражаных дадзеных, і чым большая мадэль, тым складаней яе скампраметаваць. Новая праца абвяргае гэтае меркаванне: аказваецца, абсалютная колькасць шкоданосных прыкладаў важнейшая за іх долю.

Навукоўцы праверылі і магчымасць «ачысціць» мадэль — дадатковае навучанне на чыстых дадзеных сапраўды аслабляла эфект, але не выдаляла яго цалкам. Тым не менш, калі мадэль праходзіла шырокае бяспечнае навучанне — працэс, які кампаніі кшталту OpenAI і Anthropic прымяняюць для выпраўлення памылак і павышэння бяспекі, — бэкдоры знікалі практычна цалкам.

Даследчыкі адзначаюць, што на практыцы зламыснікам будзе цяжка гарантаваць трапленне сваіх матэрыялаў у рэальныя навучальныя наборы, так як буйныя кампаніі старанна фільтруюць і правяраюць крыніцы дадзеных. Аднак сама магчымасць паспяховай атакі пры настолькі малым аб’ёме шкоданосных дадзеных паказвае на ўразлівасць базавага падыходу да збору адкрытых дадзеных для навучання ШІ.

Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
Па тэме
Кандыдаты навучыліся падманваць ШІ-рэкрутараў — і атрымліваюць оферы
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
Па тэме
OpenAI паказала ўнутраныя ШІ-сэрвісы — і выклікала паніку на рынку софту
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
Па тэме
ШІ змяняе ІТ-рынак: каго скарачаюць і каго не хапае ў 2025 годзе
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.