Ученые смогли определить размер Youtube c помощью «пьяного набора»
Ученые Массачусетского технологического института попытались подсчитать объем видеохостинга и пришли к неожиданным выводам.
Проблема с определением размера интернет-платформ заключается в том, что пока не существует надежного способа получить случайную и репрезентативную выборку, поэтому все расчеты остаются приблизительными. Автор проекта по парсингу Reddit под названием PushShift Джейсон Баумгартнер помог исследователям. Он предложил создавать с помощью инструмента InnerTube случайные URL-адреса и проверять, действительно ли они существуют на платформе. В итоге оказалось, что существует примерно 18,4 квинтиллиона возможных ссылок.
Если предположить, что есть 1 миллиард роликов, то в случае набора наугад верный адрес выпадал бы единожды из 18,4 миллиарда попыток. Ученые назвали этот метод подбора «пьяный набор» и значительно его усовершенствовали. За несколько месяцев ученым удалось найти 10 тысяч случайных роликов. Также исследователи заметили, что Youtube обычно рекомендует к просмотру ролики, которые существенно отличаются от «средних» видео на платформе (с просмотрами не менее 10 тысяч при «норме» в 39 просмотров).
При таком методе одновременно проверялось около 32 тысяч адресов. «Попадание» фиксировалось каждые 50 тысяч наборов. В итоге объем Youtube получался равен 13 235 821 970 видео. По возрасту роликов удалось понять, как быстро растет платформа. По оценкам ученых, в этом году на площадке было опубликовано более 4 миллиардов новых видео. Доля роликов с более 10 тысячами просмотров составляет лишь 4% от общего объема размещенного контента, но эти видео составляют львиную долю от общего количества просмотров.
Читать на dev.by