ШІ-боты рабуюць «Вікіпедыю» праз крытычны рост трафіку
«Вікіпедыя» была вымушана рэзка павялічыць выдаткі на інфраструктуру з-за ботаў штучнага інтэлекту, якія актыўна капіруюць яе кантэнт для навучання сваіх мадэляў. Гэты некантраляваны аўтаматызаваны трафік шматкроць павялічвае нагрузку на сайт і вядзе да росту выдаткаў.
Фонд Wikimedia заявіў пра «геаметрычны рост аўтаматызаваных запытаў на кантэнт». Паводле дадзеных фонду, пачынаючы са студзеня 2024 года, прапускная здольнасць, якая выкарыстоўваецца для загрузкі мультымедыйнага кантэнту, узрасла на 50%. Пры гэтым адзначаецца, што дадзены трафік генеруецца не людзьмі, а аўтаматызаванымі праграмамі (ботамі-скрэйперамі), якія бесперапынна загружаюць выявы і іншыя файлы з адкрытай ліцэнзіяй для патрэб навучання мадэляў ШІ.
У «Вікіпедыі» падкрэсліваюць, што іх інфраструктура разлічана на раптоўныя ўсплёскі трафіку ад карыстальнікаў падчас падзей, якія выклікаюць вялікую цікавасць, такіх як смерць вядомай асобы. Аднак аб’ём трафіку, які генеруюць боты-скрэйперы, беспрэцэдэнтны і стварае ўсё большыя рызыкі і выдаткі.
У якасці прыкладу прыводзіцца выпадак са смерцю Джымі Картэра ў снежні 2024 года, калі яго старонка ў англамоўнай «Вікіпедыі» выклікала значны, але кіраваны рост праглядаў. Адначасовае прайграванне відэа з ягоных дэбатаў прывяло да часовага падваення сеткавага трафіку, што выклікала кароткачасовыя затрымкі ў загрузцы старонак. Аднак цяперашні рост базавай нагрузкі з-за ботаў значна перавышае падобныя адзінкавыя ўсплёскі.
Спецыялісты «Вікіпедыі» сцвярджаюць, што прынамсі 65% найбольш рэсурсазатратнага трафіку прыпадае на ботаў, пры гэтым агульная колькасць праглядаў старонак ботамі складае ўсяго каля 35%. Гэта тлумачыцца тым, што старонкі, якія запытваюцца зрэдку, захоўваюцца ў асноўным цэнтры апрацоўкі дадзеных, доступ да якога абыходзіцца даражэй. Такім чынам, запыты ботаў часцей накіроўваюцца менавіта ў гэты асноўны цэнтр, што павялічвае выдаткі.
Платформа была вымушана ўвесці індывідуальныя абмежаванні хуткасці для ШІ-ботаў або нават цалкам забараніць доступ некаторым з іх. Аднак у доўгатэрміновай перспектыве фонд распрацоўвае план «Адказнага выкарыстання інфраструктуры». Гэты план прадугледжвае збор водгукаў ад супольнасці «Вікіпедыі» пра спосабы вызначэння трафіку ад ШІ-ботаў і фільтрацыі іх доступу. Мэта заключаецца ў тым, каб знайсці ўстойлівыя спосабы для распрацоўшчыкаў і другасных карыстальнікаў атрымліваць доступ да ведаў, не ставячы пад пагрозу працу і даступнасць «Вікіпедыі» для звычайных карыстальнікаў.
Читать на dev.by