Сегодня 04 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Насколько огромен YouTube? Исследователи насчитали более 13 млрд роликов, а большинство просмотров генерирует 4 % из них

Оценить объём той или иной интернет-платформы достаточно проблематично. Однако это не останавливает исследователей. В их число входит доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института (MIT), сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман (Ethan Zuckerman), который вместе с коллегами подсчитал, что на YouTube опубликовано более 13,325 млрд роликов.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Некоторые интернет-платформы, такие как Reddit, в течение многих лет позволяли собирать статистические данные с помощью специальных API. За счёт этого исследователи могли понять, например, какую часть пользователей платформы интересуют мемы или криптовалюта, а какую — психическое благополучие и настольные игры. Однако в этом году Reddit закрыла возможность обработки публикуемых на площадке постов. Аналогичным образом поступила соцсеть X (бывшая Twitter), которая прежде позволяла с помощью соответствующего API делать статистическую выборку твитов, за счёт чего исследователи могли понять, что интересует пользователей соцсети.

Как бы ни были интересны Reddit и X, они гораздо менее популярны, чем YouTube, с которым взаимодействуют почти все пользователи интернета. По данным источника, в настоящее время видеохостинг Google используют 93 % пользователей интернета подросткового возраста. Ближайшими по популярности в этой возрастной категории пользователей являются TikTok и Snapchat, с которыми взаимодействуют регулярно 63 % и 60 % подростков соответственно.

Хотя у YouTube есть хорошо задокументированный API, не существует надёжного способа получить случайную, репрезентативную выборку на YouTube. Вместо этого в большинстве исследований на YouTube изучается либо коллекция видео (все ролики на каналах выбранного набора пользователей), либо видео, найденные по рекомендациям. Любой из этих методов позволяет провести хорошее исследование, но ни один из них не позволяет рассчитать размер YouTube, т.е. попытаться подсчитать количество опубликованных на платформе роликов.

Для выполнения поставленной задачи исследователи обратились за помощью к Джейсону Баумгартнеру (Jason Baumgartner), который является создателем проекта по парсингу Reddit под названием PushShift и обладает обширными знаниями в сфере работы с недокументированными API для сбора данных. В случае YouTube речь шла об инструменте InnerTube, с помощью которого Джейсон предложил создавать случайные URL-адреса YouTube и проверять, действительно ли они существуют. URL-адрес на YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где изменяются значения после «watch?v=». Первые 10 из 11 символов ссылки могут состоять из заглавных и строчных букв английского алфавита, цифр от 0 до 9 и знака «_». Последний символ может принимать лишь одно из 16 значений.

 Источник изображения: tubestats.org

Источник изображения: tubestats.org

В итоге было подсчитано, что существует 264 возможных URL-адресов YouTube (примерно 18,4 квинтиллиона ссылок). Хотя роликов на YouTube много, но очевидно, что не настолько. Если предположить, что существует 1 млрд роликов на YouTube, то в случае набора URL наугад удавалось бы получать верный адрес только в одной из 18,4 млрд попыток. Исследователи назвали этот метод «пьяный дозвон», после оптимизации которого за несколько месяцев им удалось выявить 10 тыс. действительно случайных роликов на платформе. В ходе ведения этой деятельности исследователи также установили, что YouTube обычно рекомендует к просмотру ролики, существенно отличающиеся от «средних» видео на платформе. Дело в том, что платформа рекомендует видео с не менее чем 10 тыс. просмотров, тогда как «средний» ролик на площадке имеет лишь 39 просмотров.

Возвращаясь к «пьяному набору» исследователи предлагают сравнение: если вы набираете номера на 413 из диапазона 413-000-0000 — 413-999-9999, то вам предстоит перебрать 10 млн возможных номеров. Если один из 100 телефонных звонков оказывается удачным, то это означает, что телефонный номер на 413 в упомянутом диапазоне есть у 100 тыс. человек.

В случае YouTube «пьяный набор» одновременно проверял примерно 32 тыс. адресов и «попадание» фиксировалось каждые 50 тыс. наборов или около того. В итоге исследователям удалось подсчитать, что объём YouTube составляет 13 235 821 970 видео. Это и другие статистические значения каждые несколько недель обновляются на площадке tubestat.org. Как только удалось определить количество роликов на платформе, исследователи смогли подсчитать другие статистические показатели. Например, по возрасту роликов в случайной выборке можно понять, как быстро растёт YouTube. По оценкам исследователей, только в 2023 году на площадке было опубликовано более 4 млрд новых видео. Также было подсчитано, что доля роликов с более чем 10 тыс. просмотров составляет лишь 4 % от общего объёма размещённого на YouTube контента, но при этом они составляют львиную долю от общего количества просмотров.

Более важно то, что исследователи в конечном счёте сумели создать значительно более надёжный способ изучения YouTube, чем упомянутый ранее «пьяный набор». Метод формирования случайной выборки видео является надёжным, поскольку он последовательно перебирает всё адресное пространство. Исследователи намерены продолжить работу с YouTube, а также обновлять разные статистические показатели платформы. Более подробные данные на основе 85-страничной исследовательской работы недавно были опубликованы в журнале Journal for Quantitative Description.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
RuStore и АКИ создадут экосистему для развития мобильных игр и «появления новых российских хитов на мировом рынке» 2 ч.
Релиз «Альт Рабочая станция» 11.1: шифрование по ГОСТ, расширенная поддержка видеокарт Nvidia, приложения собственной разработки 2 ч.
«Уже лучшая игра 2026 года для меня»: журналисты показали сражение с боссом в Nioh 3, и фанаты в восторге 3 ч.
Франция оштрафовала Google на €325 миллионов за нарушение требований по защите потребителей 3 ч.
Функция Projects в ChatGPT стала доступна бесплатным пользователям 4 ч.
Как шахматы, но быстрее: соавтор Nuclear Throne анонсировал странную пошаговую стратегию Australia Did It 4 ч.
Произошёл серьёзный сбой в работе сервисов Google 4 ч.
Присяжные в суде Сан-Франциско обязали Google выплатить более $425 млн за нарушение конфиденциальности 5 ч.
Отрасль затаила дыхание —Tesco, крупнейшая розничная сеть в Великобритании, подала в суд на Broadcom из-за изменения лицензионной политики VMware 7 ч.
Надёжный инсайдер: новая God of War в разработке, а Marvel’s Wolverine скоро выйдет из тени 7 ч.
Dreame представила концептуальный робот-пылесос Cyber X с гусеничной платформой 24 мин.
Dreame представила роботы-пылесосы Aqua10 Ultra Track с технологиями Nvidia и Matrix10 Ultra с автозаменой моющих насадок 24 мин.
Представлен рукастый робот-пылесос Dreame Cyber10 Ultra для очистки труднодоступных мест 25 мин.
ICL организовала производство модульных ЦОД DataCube 31 мин.
Google бросила вызов NVIDIA, предложив малым облачным провайдерам собственные ИИ-ускорители TPU 38 мин.
Belkin представила проводные наушники SoundForm USB-C ANC, а также три беспроводных модели по цене $34,99 53 мин.
SpaceX разрешили удвоить количество пусков ракет из Флориды 59 мин.
Американцы хотят полететь на Марс уже в начале 2030-х годов 2 ч.
Представлен Eufy MarsWalker — робот для подъёма и спуска роботов- пылесосов по лестницам 2 ч.
Учёные обучили промышленных роботов «балету», чтобы они не мешали друг другу при совместной работе 3 ч.