Сегодня 12 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Насколько огромен YouTube? Исследователи насчитали более 13 млрд роликов, а большинство просмотров генерирует 4 % из них

Оценить объём той или иной интернет-платформы достаточно проблематично. Однако это не останавливает исследователей. В их число входит доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института (MIT), сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман (Ethan Zuckerman), который вместе с коллегами подсчитал, что на YouTube опубликовано более 13,325 млрд роликов.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Некоторые интернет-платформы, такие как Reddit, в течение многих лет позволяли собирать статистические данные с помощью специальных API. За счёт этого исследователи могли понять, например, какую часть пользователей платформы интересуют мемы или криптовалюта, а какую — психическое благополучие и настольные игры. Однако в этом году Reddit закрыла возможность обработки публикуемых на площадке постов. Аналогичным образом поступила соцсеть X (бывшая Twitter), которая прежде позволяла с помощью соответствующего API делать статистическую выборку твитов, за счёт чего исследователи могли понять, что интересует пользователей соцсети.

Как бы ни были интересны Reddit и X, они гораздо менее популярны, чем YouTube, с которым взаимодействуют почти все пользователи интернета. По данным источника, в настоящее время видеохостинг Google используют 93 % пользователей интернета подросткового возраста. Ближайшими по популярности в этой возрастной категории пользователей являются TikTok и Snapchat, с которыми взаимодействуют регулярно 63 % и 60 % подростков соответственно.

Хотя у YouTube есть хорошо задокументированный API, не существует надёжного способа получить случайную, репрезентативную выборку на YouTube. Вместо этого в большинстве исследований на YouTube изучается либо коллекция видео (все ролики на каналах выбранного набора пользователей), либо видео, найденные по рекомендациям. Любой из этих методов позволяет провести хорошее исследование, но ни один из них не позволяет рассчитать размер YouTube, т.е. попытаться подсчитать количество опубликованных на платформе роликов.

Для выполнения поставленной задачи исследователи обратились за помощью к Джейсону Баумгартнеру (Jason Baumgartner), который является создателем проекта по парсингу Reddit под названием PushShift и обладает обширными знаниями в сфере работы с недокументированными API для сбора данных. В случае YouTube речь шла об инструменте InnerTube, с помощью которого Джейсон предложил создавать случайные URL-адреса YouTube и проверять, действительно ли они существуют. URL-адрес на YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где изменяются значения после «watch?v=». Первые 10 из 11 символов ссылки могут состоять из заглавных и строчных букв английского алфавита, цифр от 0 до 9 и знака «_». Последний символ может принимать лишь одно из 16 значений.

 Источник изображения: tubestats.org

Источник изображения: tubestats.org

В итоге было подсчитано, что существует 264 возможных URL-адресов YouTube (примерно 18,4 квинтиллиона ссылок). Хотя роликов на YouTube много, но очевидно, что не настолько. Если предположить, что существует 1 млрд роликов на YouTube, то в случае набора URL наугад удавалось бы получать верный адрес только в одной из 18,4 млрд попыток. Исследователи назвали этот метод «пьяный дозвон», после оптимизации которого за несколько месяцев им удалось выявить 10 тыс. действительно случайных роликов на платформе. В ходе ведения этой деятельности исследователи также установили, что YouTube обычно рекомендует к просмотру ролики, существенно отличающиеся от «средних» видео на платформе. Дело в том, что платформа рекомендует видео с не менее чем 10 тыс. просмотров, тогда как «средний» ролик на площадке имеет лишь 39 просмотров.

Возвращаясь к «пьяному набору» исследователи предлагают сравнение: если вы набираете номера на 413 из диапазона 413-000-0000 — 413-999-9999, то вам предстоит перебрать 10 млн возможных номеров. Если один из 100 телефонных звонков оказывается удачным, то это означает, что телефонный номер на 413 в упомянутом диапазоне есть у 100 тыс. человек.

В случае YouTube «пьяный набор» одновременно проверял примерно 32 тыс. адресов и «попадание» фиксировалось каждые 50 тыс. наборов или около того. В итоге исследователям удалось подсчитать, что объём YouTube составляет 13 235 821 970 видео. Это и другие статистические значения каждые несколько недель обновляются на площадке tubestat.org. Как только удалось определить количество роликов на платформе, исследователи смогли подсчитать другие статистические показатели. Например, по возрасту роликов в случайной выборке можно понять, как быстро растёт YouTube. По оценкам исследователей, только в 2023 году на площадке было опубликовано более 4 млрд новых видео. Также было подсчитано, что доля роликов с более чем 10 тыс. просмотров составляет лишь 4 % от общего объёма размещённого на YouTube контента, но при этом они составляют львиную долю от общего количества просмотров.

Более важно то, что исследователи в конечном счёте сумели создать значительно более надёжный способ изучения YouTube, чем упомянутый ранее «пьяный набор». Метод формирования случайной выборки видео является надёжным, поскольку он последовательно перебирает всё адресное пространство. Исследователи намерены продолжить работу с YouTube, а также обновлять разные статистические показатели платформы. Более подробные данные на основе 85-страничной исследовательской работы недавно были опубликованы в журнале Journal for Quantitative Description.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Изучай, расширяй, эксплуатируй, уничтожай: в Steam стартовал фестиваль 4X-стратегий, а Endless Legend 2 получила временную демоверсию 4 ч.
У DeepSeek произошёл масштабный сбой — регистрация новых пользователей ограничена 4 ч.
Microsoft начала тестировать облачные ПК для аварийной замены обычных через Windows 365 4 ч.
Глава GitHub ушёл в отставку — компания перейдёт под прямое управление Microsoft 4 ч.
Создатели российского MMO-шутера Pioner отчитались о результатах стресс-теста и представили планы по улучшению PvP 7 ч.
Календарь релизов — 11 – 17 августа: The Scouring, Echoes of the End и ремастер W40K: Dawn of War 8 ч.
Mortal Kombat 1 покорила новую вершину продаж и взяла курс на звание «самой сбалансированной» игры серии 8 ч.
«Займёт своё место в пантеоне "Цивилизаций"»: руководство Take-Two не потеряло веру в Sid Meier’s Civilization VII, несмотря на слабый старт продаж 9 ч.
Россияне пожаловались на массовые сбои при звонках в WhatsApp и Telegram 9 ч.
Бывший президент Blizzard предсказал, что Battlefield 6 «раздавит» Call of Duty: Black Ops 7, и все от этого выиграют 13 ч.
Новая статья: Обзор ноутбука Acer Swift Go 14 (SFG14-63-R7T4) с процессором Ryzen 9 8945HS и OLED-экраном 3 ч.
«Космический виноград»: древняя галактика сломала представления учёных о процессах в ранней Вселенной 4 ч.
Биткоин приблизился к историческому максимуму, а Ethereum преодолел $4000 6 ч.
SpaceX запустила новую партию интернет-спутников Amazon Project Kuiper — теперь на орбите их 102 из более 3000 7 ч.
Vivo показала свою первую MR-гарнитуру — она похожа на Apple Vision Pro, но гораздо удобнее 8 ч.
Apple выпустит MacBook стоимостью от $599 в следующем году, если слухи верны 8 ч.
Ford сделает электромобили дешевле — первым на платформе Universal EV станет пикап за $30 000 8 ч.
Hyundai потребовала $65 за устранение уязвимости в системе бесключевого доступа к электромобилю Ioniq 5 8 ч.
«Рикор» представил российские 1U-серверы RS7104 и RS7110 на базе Intel Xeon Ice Lake-SP 8 ч.
«Выглядит как нечто, созданное Apple»: энтузиаст соединил iPad Pro и MacBook Air в полнофункциональный гибрид 9 ч.