ИИ-боты разоряют «Википедию» из-за критического роста трафика
«Википедия» была вынуждена резко увеличить расходы на инфраструктуру из-за ботов искусственного интеллекта, которые активно копируют ее контент для обучения своих моделей. Этот неконтролируемый автоматизированный трафик многократно увеличивает нагрузку на сайт и приводит к росту затрат.
«Википедия» была вынуждена резко увеличить расходы на инфраструктуру из-за ботов искусственного интеллекта, которые активно копируют ее контент для обучения своих моделей. Этот неконтролируемый автоматизированный трафик многократно увеличивает нагрузку на сайт и приводит к росту затрат.
Фонд Wikimedia заявил о «геометрическом росте автоматизированных запросов на контент». По данным фонда, начиная с января 2024 года, пропускная способность, используемая для загрузки мультимедийного контента, возросла на 50%. При этом отмечается, что данный трафик генерируется не людьми, а автоматизированными программами (ботами-скрейперами), которые непрерывно загружают изображения и другие файлы с открытой лицензией для нужд обучения моделей ИИ.
В «Википедии» подчеркивают, что их инфраструктура рассчитана на внезапные всплески трафика от пользователей во время событий, вызывающих высокий интерес, таких как смерть известной личности. Однако объем трафика, генерируемого ботами-скрейперами, является беспрецедентным и представляет собой растущие риски и расходы.
В качестве примера приводится случай со смертью Джимми Картера в декабре 2024 года, когда его страница на английской «Википедии» вызвала значительный, но управляемый рост просмотров. Одновременное воспроизведение видео с его дебатов привело к временному удвоению сетевого трафика, что вызвало кратковременные задержки в загрузке страниц. Однако текущий рост базовой нагрузки из-за ботов значительно превышает подобные единичные всплески.
Специалисты «Википедии» утверждают, что по крайней мере 65% наиболее ресурсозатратного трафика приходится на ботов, при этом общее количество просмотров страниц ботами составляет лишь около 35%. Это объясняется тем, что редко запрашиваемые страницы хранятся в основном центре обработки данных, доступ к которому обходится дороже* Таким образом, запросы ботов чаще направляются в этот основной центр, что увеличивает расходы.
Платформа была вынуждена ввести индивидуальные ограничения скорости для ИИ-ботов или вообще запретить доступ некоторым из них. Однако в долгосрочной перспективе фонд разрабатывает план «Ответственного использования инфраструктуры». Этот план предусматривает сбор отзывов от сообщества «Википедии» о способах определения трафика от ИИ-ботов и фильтрации их доступа. Цель состоит в том, чтобы найти устойчивые способы для разработчиков и повторных пользователей получать доступ к знаниям, не ставя под угрозу работу и доступность «Википедии» для обычных пользователей.
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Надо с ботов плату брать
Также как и open source проекты. Паразитический трафик ИИ ботов приостанавливает их разработку и даже блокирует.
Пользователь отредактировал комментарий 4 апреля 2025, 09:38