Сегодня 28 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Насколько огромен YouTube? Исследователи насчитали более 13 млрд роликов, а большинство просмотров генерирует 4 % из них

Оценить объём той или иной интернет-платформы достаточно проблематично. Однако это не останавливает исследователей. В их число входит доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института (MIT), сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман (Ethan Zuckerman), который вместе с коллегами подсчитал, что на YouTube опубликовано более 13,325 млрд роликов.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Некоторые интернет-платформы, такие как Reddit, в течение многих лет позволяли собирать статистические данные с помощью специальных API. За счёт этого исследователи могли понять, например, какую часть пользователей платформы интересуют мемы или криптовалюта, а какую — психическое благополучие и настольные игры. Однако в этом году Reddit закрыла возможность обработки публикуемых на площадке постов. Аналогичным образом поступила соцсеть X (бывшая Twitter), которая прежде позволяла с помощью соответствующего API делать статистическую выборку твитов, за счёт чего исследователи могли понять, что интересует пользователей соцсети.

Как бы ни были интересны Reddit и X, они гораздо менее популярны, чем YouTube, с которым взаимодействуют почти все пользователи интернета. По данным источника, в настоящее время видеохостинг Google используют 93 % пользователей интернета подросткового возраста. Ближайшими по популярности в этой возрастной категории пользователей являются TikTok и Snapchat, с которыми взаимодействуют регулярно 63 % и 60 % подростков соответственно.

Хотя у YouTube есть хорошо задокументированный API, не существует надёжного способа получить случайную, репрезентативную выборку на YouTube. Вместо этого в большинстве исследований на YouTube изучается либо коллекция видео (все ролики на каналах выбранного набора пользователей), либо видео, найденные по рекомендациям. Любой из этих методов позволяет провести хорошее исследование, но ни один из них не позволяет рассчитать размер YouTube, т.е. попытаться подсчитать количество опубликованных на платформе роликов.

Для выполнения поставленной задачи исследователи обратились за помощью к Джейсону Баумгартнеру (Jason Baumgartner), который является создателем проекта по парсингу Reddit под названием PushShift и обладает обширными знаниями в сфере работы с недокументированными API для сбора данных. В случае YouTube речь шла об инструменте InnerTube, с помощью которого Джейсон предложил создавать случайные URL-адреса YouTube и проверять, действительно ли они существуют. URL-адрес на YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где изменяются значения после «watch?v=». Первые 10 из 11 символов ссылки могут состоять из заглавных и строчных букв английского алфавита, цифр от 0 до 9 и знака «_». Последний символ может принимать лишь одно из 16 значений.

 Источник изображения: tubestats.org

Источник изображения: tubestats.org

В итоге было подсчитано, что существует 264 возможных URL-адресов YouTube (примерно 18,4 квинтиллиона ссылок). Хотя роликов на YouTube много, но очевидно, что не настолько. Если предположить, что существует 1 млрд роликов на YouTube, то в случае набора URL наугад удавалось бы получать верный адрес только в одной из 18,4 млрд попыток. Исследователи назвали этот метод «пьяный дозвон», после оптимизации которого за несколько месяцев им удалось выявить 10 тыс. действительно случайных роликов на платформе. В ходе ведения этой деятельности исследователи также установили, что YouTube обычно рекомендует к просмотру ролики, существенно отличающиеся от «средних» видео на платформе. Дело в том, что платформа рекомендует видео с не менее чем 10 тыс. просмотров, тогда как «средний» ролик на площадке имеет лишь 39 просмотров.

Возвращаясь к «пьяному набору» исследователи предлагают сравнение: если вы набираете номера на 413 из диапазона 413-000-0000 — 413-999-9999, то вам предстоит перебрать 10 млн возможных номеров. Если один из 100 телефонных звонков оказывается удачным, то это означает, что телефонный номер на 413 в упомянутом диапазоне есть у 100 тыс. человек.

В случае YouTube «пьяный набор» одновременно проверял примерно 32 тыс. адресов и «попадание» фиксировалось каждые 50 тыс. наборов или около того. В итоге исследователям удалось подсчитать, что объём YouTube составляет 13 235 821 970 видео. Это и другие статистические значения каждые несколько недель обновляются на площадке tubestat.org. Как только удалось определить количество роликов на платформе, исследователи смогли подсчитать другие статистические показатели. Например, по возрасту роликов в случайной выборке можно понять, как быстро растёт YouTube. По оценкам исследователей, только в 2023 году на площадке было опубликовано более 4 млрд новых видео. Также было подсчитано, что доля роликов с более чем 10 тыс. просмотров составляет лишь 4 % от общего объёма размещённого на YouTube контента, но при этом они составляют львиную долю от общего количества просмотров.

Более важно то, что исследователи в конечном счёте сумели создать значительно более надёжный способ изучения YouTube, чем упомянутый ранее «пьяный набор». Метод формирования случайной выборки видео является надёжным, поскольку он последовательно перебирает всё адресное пространство. Исследователи намерены продолжить работу с YouTube, а также обновлять разные статистические показатели платформы. Более подробные данные на основе 85-страничной исследовательской работы недавно были опубликованы в журнале Journal for Quantitative Description.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Роскомнадзор зарегистрировал более 49 тыс. каналов и страниц в соцсетях с аудиторией свыше 10 тыс. человек 6 ч.
Соучредителя Terraform Labs, из-за банкротства которой инвесторы потеряли более $40 млрд, экстрадируют в США 6 ч.
В Windows 11 появятся расширенные настройки камеры — с их помощью можно менять качество съёмки и частоту кадров 7 ч.
FTC подозревает Microsoft в монополизации госзаказов США 9 ч.
Дональд Трамп просит Верховный суд поставить на паузу действие закона, угрожающего запретом TikTok в США 10 ч.
Хакеры взломали ряд расширений для Chrome для кражи паролей и личных данных пользователей 14 ч.
Разработчики Hades II раскрыли, когда выйдет второе крупное обновление, и чего ждать дальше 16 ч.
Фейковый юрист Nintendo запугивает блогеров, проходящих в игры на камеру — YouTube не может его остановить 17 ч.
Монетизация, жизнь после релиза и никакого Unreal Engine 5: разработчики российского MMO-шутера Pioner ответили на вопросы игроков 17 ч.
Вышел трейлер первого индийского полнометражного фильма, который сгенерировал ИИ 18 ч.
Minisforum представила миниатюрные материнские платы с встроенными 16-ядерными Ryzen 9 17 мин.
Китай засекретил новые суперкомпьютеры и делает вид, что не развивается в этой сфере 46 мин.
Тяжёлая ракета New Glenn Blue Origin прожгла маршевые двигатели и допущена к первому запуску 58 мин.
Итальянская нефтегазовая компания Eni запустила суперкомпьютер HPC6 с производительностью 478 Пфлопс 2 ч.
Xiaomi создаст ИИ-кластер с 10 тыс. GPU 2 ч.
Объём телеком-рынка в России в 2024 году превысил 2 трлн руб. 3 ч.
Обнародован рейтинг Тор-100 суперкомпьютеров Китая: систем экзафлопсного класса в нём нет 3 ч.
На юге Китая будет запущен эксперимент по использованию беспилотных такси между городами 3 ч.
Решения YADRO станут основой IT-инфраструктуры Евразийской экономической комиссии 5 ч.
Ускорители Nvidia B300 прибавят в быстродействии 50 %, но ограничатся ростом TDP на 200 Вт 7 ч.