ИИ-боты разоряют «Википедию» из-за критического роста трафика

«Википедия» была вынуждена резко увеличить расходы на инфраструктуру из-за ботов искусственного интеллекта, которые активно копируют ее контент для обучения своих моделей. Этот неконтролируемый автоматизированный трафик многократно увеличивает нагрузку на сайт и приводит к росту затрат.

2 комментария

Фонд Wikimedia заявил о «геометрическом росте автоматизированных запросов на контент». По данным фонда, начиная с января 2024 года, пропускная способность, используемая для загрузки мультимедийного контента, возросла на 50%. При этом отмечается, что данный трафик генерируется не людьми, а автоматизированными программами (ботами-скрейперами), которые непрерывно загружают изображения и другие файлы с открытой лицензией для нужд обучения моделей ИИ.

В «Википедии» подчеркивают, что их инфраструктура рассчитана на внезапные всплески трафика от пользователей во время событий, вызывающих высокий интерес, таких как смерть известной личности. Однако объем трафика, генерируемого ботами-скрейперами, является беспрецедентным и представляет собой растущие риски и расходы.

В качестве примера приводится случай со смертью Джимми Картера в декабре 2024 года, когда его страница на английской «Википедии» вызвала значительный, но управляемый рост просмотров. Одновременное воспроизведение видео с его дебатов привело к временному удвоению сетевого трафика, что вызвало кратковременные задержки в загрузке страниц. Однако текущий рост базовой нагрузки из-за ботов значительно превышает подобные единичные всплески.

Специалисты «Википедии» утверждают, что по крайней мере 65% наиболее ресурсозатратного трафика приходится на ботов, при этом общее количество просмотров страниц ботами составляет лишь около 35%. Это объясняется тем, что редко запрашиваемые страницы хранятся в основном центре обработки данных, доступ к которому обходится дороже* Таким образом, запросы ботов чаще направляются в этот основной центр, что увеличивает расходы.

Платформа была вынуждена ввести индивидуальные ограничения скорости для ИИ-ботов или вообще запретить доступ некоторым из них. Однако в долгосрочной перспективе фонд разрабатывает план «Ответственного использования инфраструктуры». Этот план предусматривает сбор отзывов от сообщества «Википедии» о способах определения трафика от ИИ-ботов и фильтрации их доступа. Цель состоит в том, чтобы найти устойчивые способы для разработчиков и повторных пользователей получать доступ к знаниям, не ставя под угрозу работу и доступность «Википедии» для обычных пользователей.

ИИ сделает вашу компанию сильнее — если не убьет раньше
По теме
ИИ сделает вашу компанию сильнее — если не убьет раньше
Гейтс: если бы я мог вернуться назад, сразу бы сделал Microsoft ИИ-компанией
По теме
Гейтс: если бы я мог вернуться назад, сразу бы сделал Microsoft ИИ-компанией
Google открыла свою самую продвинутую ИИ-модель для всех пользователей
По теме
Google открыла свою самую продвинутую ИИ-модель для всех пользователей

Читать на dev.by