Сегодня 03 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Насколько огромен YouTube? Исследователи насчитали более 13 млрд роликов, а большинство просмотров генерирует 4 % из них

Оценить объём той или иной интернет-платформы достаточно проблематично. Однако это не останавливает исследователей. В их число входит доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института (MIT), сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман (Ethan Zuckerman), который вместе с коллегами подсчитал, что на YouTube опубликовано более 13,325 млрд роликов.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Некоторые интернет-платформы, такие как Reddit, в течение многих лет позволяли собирать статистические данные с помощью специальных API. За счёт этого исследователи могли понять, например, какую часть пользователей платформы интересуют мемы или криптовалюта, а какую — психическое благополучие и настольные игры. Однако в этом году Reddit закрыла возможность обработки публикуемых на площадке постов. Аналогичным образом поступила соцсеть X (бывшая Twitter), которая прежде позволяла с помощью соответствующего API делать статистическую выборку твитов, за счёт чего исследователи могли понять, что интересует пользователей соцсети.

Как бы ни были интересны Reddit и X, они гораздо менее популярны, чем YouTube, с которым взаимодействуют почти все пользователи интернета. По данным источника, в настоящее время видеохостинг Google используют 93 % пользователей интернета подросткового возраста. Ближайшими по популярности в этой возрастной категории пользователей являются TikTok и Snapchat, с которыми взаимодействуют регулярно 63 % и 60 % подростков соответственно.

Хотя у YouTube есть хорошо задокументированный API, не существует надёжного способа получить случайную, репрезентативную выборку на YouTube. Вместо этого в большинстве исследований на YouTube изучается либо коллекция видео (все ролики на каналах выбранного набора пользователей), либо видео, найденные по рекомендациям. Любой из этих методов позволяет провести хорошее исследование, но ни один из них не позволяет рассчитать размер YouTube, т.е. попытаться подсчитать количество опубликованных на платформе роликов.

Для выполнения поставленной задачи исследователи обратились за помощью к Джейсону Баумгартнеру (Jason Baumgartner), который является создателем проекта по парсингу Reddit под названием PushShift и обладает обширными знаниями в сфере работы с недокументированными API для сбора данных. В случае YouTube речь шла об инструменте InnerTube, с помощью которого Джейсон предложил создавать случайные URL-адреса YouTube и проверять, действительно ли они существуют. URL-адрес на YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где изменяются значения после «watch?v=». Первые 10 из 11 символов ссылки могут состоять из заглавных и строчных букв английского алфавита, цифр от 0 до 9 и знака «_». Последний символ может принимать лишь одно из 16 значений.

 Источник изображения: tubestats.org

Источник изображения: tubestats.org

В итоге было подсчитано, что существует 264 возможных URL-адресов YouTube (примерно 18,4 квинтиллиона ссылок). Хотя роликов на YouTube много, но очевидно, что не настолько. Если предположить, что существует 1 млрд роликов на YouTube, то в случае набора URL наугад удавалось бы получать верный адрес только в одной из 18,4 млрд попыток. Исследователи назвали этот метод «пьяный дозвон», после оптимизации которого за несколько месяцев им удалось выявить 10 тыс. действительно случайных роликов на платформе. В ходе ведения этой деятельности исследователи также установили, что YouTube обычно рекомендует к просмотру ролики, существенно отличающиеся от «средних» видео на платформе. Дело в том, что платформа рекомендует видео с не менее чем 10 тыс. просмотров, тогда как «средний» ролик на площадке имеет лишь 39 просмотров.

Возвращаясь к «пьяному набору» исследователи предлагают сравнение: если вы набираете номера на 413 из диапазона 413-000-0000 — 413-999-9999, то вам предстоит перебрать 10 млн возможных номеров. Если один из 100 телефонных звонков оказывается удачным, то это означает, что телефонный номер на 413 в упомянутом диапазоне есть у 100 тыс. человек.

В случае YouTube «пьяный набор» одновременно проверял примерно 32 тыс. адресов и «попадание» фиксировалось каждые 50 тыс. наборов или около того. В итоге исследователям удалось подсчитать, что объём YouTube составляет 13 235 821 970 видео. Это и другие статистические значения каждые несколько недель обновляются на площадке tubestat.org. Как только удалось определить количество роликов на платформе, исследователи смогли подсчитать другие статистические показатели. Например, по возрасту роликов в случайной выборке можно понять, как быстро растёт YouTube. По оценкам исследователей, только в 2023 году на площадке было опубликовано более 4 млрд новых видео. Также было подсчитано, что доля роликов с более чем 10 тыс. просмотров составляет лишь 4 % от общего объёма размещённого на YouTube контента, но при этом они составляют львиную долю от общего количества просмотров.

Более важно то, что исследователи в конечном счёте сумели создать значительно более надёжный способ изучения YouTube, чем упомянутый ранее «пьяный набор». Метод формирования случайной выборки видео является надёжным, поскольку он последовательно перебирает всё адресное пространство. Исследователи намерены продолжить работу с YouTube, а также обновлять разные статистические показатели платформы. Более подробные данные на основе 85-страничной исследовательской работы недавно были опубликованы в журнале Journal for Quantitative Description.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ЕС оштрафует TikTok на €500 млн за передачу данных европейцев в Китай 13 мин.
40 кадров/с и «местами даже хорошая» графика за $70: первые подробности Cyberpunk 2077 для Nintendo Switch 2 57 мин.
Представлена ранняя ПК-версия российской ОС «Аврора» — на ней уже запускается Telegram и не только 2 ч.
«РТК ИТ Плюс» пополнила ИТ-экосистему «Лукоморье» тремя новыми продуктами 3 ч.
Microsoft подтвердила дату выхода GTA V в PC Game Pass — подписчики получат доступ к GTA V Enhanced 3 ч.
Новый контент в Elden Ring: Tarnished Edition для Nintendo Switch 2 появится и на других платформах 4 ч.
Лавкрафтианский хоррор Stygian: Outer Gods готовится к старту открытой «беты» — новый геймплейный трейлер 5 ч.
Nintendo создала гибридный эмулятор Switch, но работать он будет только на Switch 2 6 ч.
Новая статья: Обзор системы резервного копирования и восстановления данных «Кибер Бэкап Малый Бизнес» 8 ч.
Годовая выручка «Группы Астра» взлетела на 80 %, а прибыль — на 66 % 8 ч.
Большой адронный коллайдер собрал базу для выхода за пределы известной физики 21 мин.
Восьмиядерные CPU стали самыми популярными в мире по статистике CPU-Z — AMD стремительно отбирает рынок у Intel и Nvidia 47 мин.
Apple потеряла $250 млрд стоимости за день — пошлины Трампа обвалили акции техногигантов 2 ч.
Nintendo Switch 2 получила поддержку трассировки лучей и DLSS, но их появление в играх зависит от разработчиков 2 ч.
Nikon представила полнокадровую камеру Z5 II с улучшенным автофокусом и повышенной скоростью съёмки за $1700 3 ч.
«Акустическое совершенство»: Bang & Olufsen представила каменную колонку Beosound Balance Natura 3 ч.
У россиян вырос интерес к планшетам — продажи подскочили на 15 % в первом квартале 4 ч.
«Идеальный снимок. Скоро» — Nothing намекнула на скорый выход CMF Phone 2 4 ч.
Samsung выпустила 20-метровые телевизоры для кинотеатров Onyx 4 ч.
Intel переосмыслила свой главный слоган и обновила фирменный стиль, чтобы вернуть пользователей 5 ч.