«Гэта як пісаць у акіян»: распрацоўшчыца прыдумала, як змагацца з ШІ-парсерамі
Папулярная стратэгія абароны ад ШІ — «атручванне» датасэтаў (data poisoning), пры якой у адкрытыя дадзеныя свядома дадаюць памылкі ці фальшывую інфармацыю, — насамрэч слаба эфектыўная.
Пра гэта заявіла распрацоўшчыца і інжынер Xe Iaso, аўтар інструмента Anubis, створанага для барацьбы з ботамі, якія збіраюць кантэнт для навучання мадэляў. «Атручванне дадзеных — гэта як пісаць у акіян: адчуванне ствараецца, а эфект нулявы», — кажа Iaso ў інтэрв’ю 404 Media.
Па яе словах, у буйных ШІ-кампаній дастаткова вылічальных магутнасцяў, каб лёгка фільтраваць ці нейтралізаваць шкодныя дадзеныя. А вось у незалежных распрацоўшчыкаў і мастакоў такіх рэсурсаў няма — таму спробы сабатаваць навучанне мадэляў часцей за ўсё бескарысныя і затратныя.
Замест гэтага праграміст прапануе іншую стратэгію — запавольванне аўтаматычнага збору дадзеных за кошт павышэння вылічальнай нагрузкі для ботаў. Яе праект Anubis — гэта своеасаблівая «нябачная CAPTCHA», якая не перашкаджае звычайным карыстальнікам, але вымушае ботаў вырашаць крыптаграфічныя задачы непасрэдна ў браўзеры. Такі падыход робіць масавае сканаванне сайтаў нашмат больш дарагім і нявыгадным для ШІ-кампаній.
З моманту запуску ў студзені Anubis быў загружаны амаль 200 000 разоў і ўжо выкарыстоўваецца такімі арганізацыямі, як GNOME, FFmpeg і ЮНЕСКА. Iaso працягвае развіваць праект — зараз яна працуе над менш рэсурсаёмістым варыянтам і версіяй без неабходнасці ўключанага JavaScript для прыватных браўзераў. Распрацоўшчыца фінансуе яго праз Patreon і GitHub Sponsors, і, па яе словах, пакуль гэтага недастаткова, каб працаваць над Anubis паўнавартасна.
Читать на dev.by