ШІ-боты рабуюць «Вікіпедыю» праз крытычны рост трафіку

«Вікіпедыя» была вымушана рэзка павялічыць выдаткі на інфраструктуру з-за ботаў штучнага інтэлекту, якія актыўна капіруюць яе кантэнт для навучання сваіх мадэляў. Гэты некантраляваны аўтаматызаваны трафік шматкроць павялічвае нагрузку на сайт і вядзе да росту выдаткаў.

2 каментарыя

Фонд Wikimedia заявіў пра «геаметрычны рост аўтаматызаваных запытаў на кантэнт». Паводле дадзеных фонду, пачынаючы са студзеня 2024 года, прапускная здольнасць, якая выкарыстоўваецца для загрузкі мультымедыйнага кантэнту, узрасла на 50%. Пры гэтым адзначаецца, што дадзены трафік генеруецца не людзьмі, а аўтаматызаванымі праграмамі (ботамі-скрэйперамі), якія бесперапынна загружаюць выявы і іншыя файлы з адкрытай ліцэнзіяй для патрэб навучання мадэляў ШІ.

У «Вікіпедыі» падкрэсліваюць, што іх інфраструктура разлічана на раптоўныя ўсплёскі трафіку ад карыстальнікаў падчас падзей, якія выклікаюць вялікую цікавасць, такіх як смерць вядомай асобы. Аднак аб’ём трафіку, які генеруюць боты-скрэйперы, беспрэцэдэнтны і стварае ўсё большыя рызыкі і выдаткі.

У якасці прыкладу прыводзіцца выпадак са смерцю Джымі Картэра ў снежні 2024 года, калі яго старонка ў англамоўнай «Вікіпедыі» выклікала значны, але кіраваны рост праглядаў. Адначасовае прайграванне відэа з ягоных дэбатаў прывяло да часовага падваення сеткавага трафіку, што выклікала кароткачасовыя затрымкі ў загрузцы старонак. Аднак цяперашні рост базавай нагрузкі з-за ботаў значна перавышае падобныя адзінкавыя ўсплёскі.

Спецыялісты «Вікіпедыі» сцвярджаюць, што прынамсі 65% найбольш рэсурсазатратнага трафіку прыпадае на ботаў, пры гэтым агульная колькасць праглядаў старонак ботамі складае ўсяго каля 35%. Гэта тлумачыцца тым, што старонкі, якія запытваюцца зрэдку, захоўваюцца ў асноўным цэнтры апрацоўкі дадзеных, доступ да якога абыходзіцца даражэй. Такім чынам, запыты ботаў часцей накіроўваюцца менавіта ў гэты асноўны цэнтр, што павялічвае выдаткі.

Платформа была вымушана ўвесці індывідуальныя абмежаванні хуткасці для ШІ-ботаў або нават цалкам забараніць доступ некаторым з іх. Аднак у доўгатэрміновай перспектыве фонд распрацоўвае план «Адказнага выкарыстання інфраструктуры». Гэты план прадугледжвае збор водгукаў ад супольнасці «Вікіпедыі» пра спосабы вызначэння трафіку ад ШІ-ботаў і фільтрацыі іх доступу. Мэта заключаецца ў тым, каб знайсці ўстойлівыя спосабы для распрацоўшчыкаў і другасных карыстальнікаў атрымліваць доступ да ведаў, не ставячы пад пагрозу працу і даступнасць «Вікіпедыі» для звычайных карыстальнікаў.

ШІ зробіць вашу кампанію мацнейшай — калі не знішчыць раней
Па тэме
ШІ зробіць вашу кампанію мацнейшай — калі не знішчыць раней
Гейтс: калі б я мог вярнуцца назад, адразу зрабіў бы Microsoft ШІ-кампаніяй
Па тэме
Гейтс: калі б я мог вярнуцца назад, адразу зрабіў бы Microsoft ШІ-кампаніяй
Google адкрыла сваю найбольш прасунутую ШІ-мадэль для ўсіх карыстальнікаў
Па тэме
Google адкрыла сваю найбольш прасунутую ШІ-мадэль для ўсіх карыстальнікаў

Читать на dev.by