Сегодня 21 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → веб-страницы

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета

Интернет представляет собой невообразимо большое хранилище данных, насчитывающее сотни миллиардов проиндексированных веб-страниц. Можно подумать, что веб-пространство с годами только расширяется, но на деле это не совсем так. Новое исследование Pew Research Center наглядно показывает, насколько непродолжительный период времени существует веб-контент.

 Источник изображения: geralt / Pixabay

Источник изображения: geralt / Pixabay

Аналитики подсчитали, что четверть от общего числа веб-страниц, которые существовали в период с 2013 года по 2023 годы, по состоянию на октябрь 2023 года уже недоступны. В большинстве случаев это связано с тем, что с течением времени страницы сайтов радикально корректируются или же попросту удаляются. Для более старого контента эта тенденция также актуальна. Около 38 % веб-страниц, существовавших в 2013 году, недоступны в настоящее время. Если же рассматривать веб-страницы, существовавшие в 2023 году, то показатель недоступных в настоящее время составит 8 %.

Специалисты Pew Research Center изучили ссылки, которые появляются на правительственных и новостных сайтах, а также в разделе «Ссылки» на страницах Википедии по состоянии на весну этого года. Анализ показал, что 23 % новостных веб-страниц содержат хотя бы одну нерабочую ссылку, как и 21 % веб-страниц правительственных сайтов. Особенно часто неработающие ссылки встречаются на страницах сайтов местных органов власти (городских администраций). При этом 54 % страниц Википедии содержат в разделе «Ссылки» хотя бы один URL-адрес уже не существующей страницы.

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Страницы в социальных сетях

Чтобы проследить, как исчезают страницы в социальных сетях, аналитики собрали на платформе X выборку твитов в режиме онлайн весной 2023 года и следили за ними в течение трёх месяцев. В результате было установлено, что почти каждый пятый пост в соцсети перестаёт быть общедоступным спустя несколько месяцев после публикации. В 60 % случаев аккаунт, опубликовавший твит первоначально, за этот же период становится приватным, его действие приостанавливается или же учётная запись удаляется с платформы. В остальных 40 % случаев владелец аккаунта сам удаляет твит, но его учётная запись продолжает существовать. Отмечается, что более 40 % твитов на турецком или арабском языках исчезают с сайта в течение трёх месяцев с момента публикации.

Веб-страницы за последнее десятилетие

Для проведения этой части анализа специалисты собрали случайную выборку из чуть менее 1 млн веб-страниц из архивов Common Crawl. Аналитики отбирали страницы из архивов Common Crawl за каждый год, начиная с 2013 года (примерно 90 тыс. страниц за каждый год), и проверяли, существуют ли они в настоящее время.

Было установлено, что 25 % собранных веб-страниц в октябре 2023 года уже были недоступны. Это значение складывается из двух показателей: 16 % приходится на отдельно недоступные страницы на действующих сайтах, а ещё 9 % страниц недоступны, потому что перестал существовать весь сайт. Вполне логично, что большая часть недоступных сейчас ресурсов приходится на более старые версии архивов (38 % отобранных страниц, существовавших в 2013 году, перестали функционировать к октябрю 2023 года).

Ссылки на правительственных сайтах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Для анализа этого сегмента онлайн-пространства было выбрано около 500 тыс. страниц с правительственных веб-сайтов из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах размещалось 42 млн ссылок (86 % внутренних ссылок). Примерно три четверти веб-страниц из выборки содержали хотя бы одну ссылку, а в среднем на странице находилось 50 ссылок. В общей сложности 21 % исследованных страниц на правительственных сайтах содержали хотя бы одну неработающую ссылку.

Ссылки на новостных порталах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В этой категории анализировались 500 тыс. страниц с 2063 сайтов, которые компания comScore отнесла к категории «Новости и информация». Страницы собирались из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах содержалось 14 млн ссылок (в среднем 20 ссылок на страницу). После проверки оказалось, что 5 % всех ссылок из выборки уже не работают и на 23 % страниц из выборки содержится хотя бы одна ссылка на не существующий ресурс. Около 25 % страниц новостных сайтов из топ-20 по посещаемости имеют хотя бы одну нерабочую ссылку.

Справочные ссылки в Википедии

Аналитики выбрали 50 тыс. страниц Википедии на английском языке и изучили ссылки, которые содержались на них в разделе «Ссылки». Около 82 % страниц содержали хотя бы одну нерабочую внешнюю ссылку. В общей сложности на всех страницах из выборки содержится более 1 млн ссылок, причём 11 % из них больше недоступны.

Посты в соцсети X

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В исследовании участвовали 5 млн твитов, опубликованных с 8 марта по 27 апреля 2023 года в соцсети X, которая на тот момент называлась Twitter. Далее исследователи следили за этими постами до 15 июня того же года и ежедневно проверяли их на предмет доступности. К концу исследования 18 % от начальной базы твитов уже не были доступны для просмотра на платформе. В большинстве случаев это стало следствием того, что учётная запись автора заблокирована или полностью удалена.

Отмечается, что большая часть твитов удаляется из X в течение месяца. При этом 1 % постов исчезает в течение часа после публикации, 3 % — в течение дня, 10 % — в течение недели, 15 % — в течение месяца. Другими словами, около половины твитов, которые исчезают с платформы, становятся недоступны в течение первых шести дней с момента публикации и 90 % таких твитов исчезают за 46 дней.


window-new
Soft
Hard
Тренды 🔥
Миллионер с зарплатой сантехника: выяснилось, сколько зарабатывает глава OpenAI 38 мин.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 42 мин.
Роскомнадзор с декабря начнёт блокировать сайты за публикацию научной информации о VPN для обхода блокировок 50 мин.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 2 ч.
В Японии порекомендовали добавить в завещания свои логины и пароли 4 ч.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 4 ч.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 6 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 7 ч.
D-Link предложила устранить уязвимость маршрутизаторов покупкой новых 8 ч.
Valve ужесточила правила продажи сезонных абонементов в Steam и начнёт следить за выполнением обещаний разработчиков 9 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 2 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 3 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 3 ч.
Грузовик «Прогресс МС-29» улетел к МКС с новогодними подарками и мандаринами для космонавтов 3 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 4 ч.
HPE готова ответить на любые вопросы Минюста США по расследованию покупки Juniper за $14 млрд 4 ч.
Thermaltake представила компактный, но вместительный корпус The Tower 250 для игровых систем на Mini-ITX 6 ч.
Флагманы Oppo Find X8 и X8 Pro на Dimensity 9400 стали доступны не только в Китае — старший оценили в €1149 6 ч.
«ВКонтакте» выросла до 88,1 млн пользователей — выручка VK взлетела на 21,4 % на рекламе 7 ч.
В Китае выпустили жидкостный кулер с 6,8-дюймовым изогнутым OLED-экраном за $137 7 ч.