Сегодня 19 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета

Интернет представляет собой невообразимо большое хранилище данных, насчитывающее сотни миллиардов проиндексированных веб-страниц. Можно подумать, что веб-пространство с годами только расширяется, но на деле это не совсем так. Новое исследование Pew Research Center наглядно показывает, насколько непродолжительный период времени существует веб-контент.

 Источник изображения: geralt / Pixabay

Источник изображения: geralt / Pixabay

Аналитики подсчитали, что четверть от общего числа веб-страниц, которые существовали в период с 2013 года по 2023 годы, по состоянию на октябрь 2023 года уже недоступны. В большинстве случаев это связано с тем, что с течением времени страницы сайтов радикально корректируются или же попросту удаляются. Для более старого контента эта тенденция также актуальна. Около 38 % веб-страниц, существовавших в 2013 году, недоступны в настоящее время. Если же рассматривать веб-страницы, существовавшие в 2023 году, то показатель недоступных в настоящее время составит 8 %.

Специалисты Pew Research Center изучили ссылки, которые появляются на правительственных и новостных сайтах, а также в разделе «Ссылки» на страницах Википедии по состоянии на весну этого года. Анализ показал, что 23 % новостных веб-страниц содержат хотя бы одну нерабочую ссылку, как и 21 % веб-страниц правительственных сайтов. Особенно часто неработающие ссылки встречаются на страницах сайтов местных органов власти (городских администраций). При этом 54 % страниц Википедии содержат в разделе «Ссылки» хотя бы один URL-адрес уже не существующей страницы.

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Страницы в социальных сетях

Чтобы проследить, как исчезают страницы в социальных сетях, аналитики собрали на платформе X выборку твитов в режиме онлайн весной 2023 года и следили за ними в течение трёх месяцев. В результате было установлено, что почти каждый пятый пост в соцсети перестаёт быть общедоступным спустя несколько месяцев после публикации. В 60 % случаев аккаунт, опубликовавший твит первоначально, за этот же период становится приватным, его действие приостанавливается или же учётная запись удаляется с платформы. В остальных 40 % случаев владелец аккаунта сам удаляет твит, но его учётная запись продолжает существовать. Отмечается, что более 40 % твитов на турецком или арабском языках исчезают с сайта в течение трёх месяцев с момента публикации.

Веб-страницы за последнее десятилетие

Для проведения этой части анализа специалисты собрали случайную выборку из чуть менее 1 млн веб-страниц из архивов Common Crawl. Аналитики отбирали страницы из архивов Common Crawl за каждый год, начиная с 2013 года (примерно 90 тыс. страниц за каждый год), и проверяли, существуют ли они в настоящее время.

Было установлено, что 25 % собранных веб-страниц в октябре 2023 года уже были недоступны. Это значение складывается из двух показателей: 16 % приходится на отдельно недоступные страницы на действующих сайтах, а ещё 9 % страниц недоступны, потому что перестал существовать весь сайт. Вполне логично, что большая часть недоступных сейчас ресурсов приходится на более старые версии архивов (38 % отобранных страниц, существовавших в 2013 году, перестали функционировать к октябрю 2023 года).

Ссылки на правительственных сайтах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Для анализа этого сегмента онлайн-пространства было выбрано около 500 тыс. страниц с правительственных веб-сайтов из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах размещалось 42 млн ссылок (86 % внутренних ссылок). Примерно три четверти веб-страниц из выборки содержали хотя бы одну ссылку, а в среднем на странице находилось 50 ссылок. В общей сложности 21 % исследованных страниц на правительственных сайтах содержали хотя бы одну неработающую ссылку.

Ссылки на новостных порталах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В этой категории анализировались 500 тыс. страниц с 2063 сайтов, которые компания comScore отнесла к категории «Новости и информация». Страницы собирались из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах содержалось 14 млн ссылок (в среднем 20 ссылок на страницу). После проверки оказалось, что 5 % всех ссылок из выборки уже не работают и на 23 % страниц из выборки содержится хотя бы одна ссылка на не существующий ресурс. Около 25 % страниц новостных сайтов из топ-20 по посещаемости имеют хотя бы одну нерабочую ссылку.

Справочные ссылки в Википедии

Аналитики выбрали 50 тыс. страниц Википедии на английском языке и изучили ссылки, которые содержались на них в разделе «Ссылки». Около 82 % страниц содержали хотя бы одну нерабочую внешнюю ссылку. В общей сложности на всех страницах из выборки содержится более 1 млн ссылок, причём 11 % из них больше недоступны.

Посты в соцсети X

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В исследовании участвовали 5 млн твитов, опубликованных с 8 марта по 27 апреля 2023 года в соцсети X, которая на тот момент называлась Twitter. Далее исследователи следили за этими постами до 15 июня того же года и ежедневно проверяли их на предмет доступности. К концу исследования 18 % от начальной базы твитов уже не были доступны для просмотра на платформе. В большинстве случаев это стало следствием того, что учётная запись автора заблокирована или полностью удалена.

Отмечается, что большая часть твитов удаляется из X в течение месяца. При этом 1 % постов исчезает в течение часа после публикации, 3 % — в течение дня, 10 % — в течение недели, 15 % — в течение месяца. Другими словами, около половины твитов, которые исчезают с платформы, становятся недоступны в течение первых шести дней с момента публикации и 90 % таких твитов исчезают за 46 дней.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Chrome нашли опасную уязвимость, которую уже используют хакеры — вышел экстренный патч 9 ч.
AMD представит технологию FSR Redstone с реконструкцией лучей и не только 10 декабря 12 ч.
Спасение галактики, истребление пауков и многое другое: Microsoft раскрыла, какие игры пополнят Game Pass в конце ноября и начале декабря 13 ч.
Спустя 7 лет после запуска и через 18 лет после Steam в Epic Games Store появилась возможность дарить игры друзьям 13 ч.
Генпрокуратура признала нежелательной деятельность разработчиков S.T.A.L.K.E.R. 2: Heart of Chornobyl на территории России 15 ч.
Alibaba выпустила ИИ-бота Qwen — будущего конкурента ChatGPT 15 ч.
Евросоюз рассматривает необходимость ограничения возможностей американских облачных гигантов 16 ч.
Roblox скоро начнёт разделять пользователей по возрасту — грядёт обязательная верификация 16 ч.
ИИ-агент в Windows 11 сможет загружать вирусы, предупредила Microsoft 16 ч.
Интернет внезапно засбоил по всему миру — в этом замешана Cloudflare 18 ч.
Акции бигтехов в США просели в цене на фоне обеспокоенности инвесторов формированием ИИ-пузыря 2 ч.
Microsoft и Nvidia готовы вложить до $15 млрд в ИИ-стартап Anthropic 4 ч.
Meta выиграла судебную тяжбу с антимонопольным регулятором США, призывавшим к её разделению 4 ч.
Новая статья: HUAWEI XMAGE 2025: мобильная фотография как полноценное окно в мир искусства 7 ч.
$30 млрд и 1 ГВт: Microsoft, NVIDIA и Anthropic договорились о сотрудничестве 8 ч.
Новая статья: Обзор ноутбука Acer Nitro V 16S AI: минимальный набор геймера, или На что способна мобильная версия GeForce RTX 5050 9 ч.
Xiaomi отчиталась об отличных продажах новых флагманов, миллиарде устройств умного дома и других успехах третьего квартала 9 ч.
Arm добавила Neoverse поддержку NVIDIA NVLink Fusion 9 ч.
Noctua пообещала «совсем скоро» выпустить чёрный кулер NH-D15 G2 chromax.black 9 ч.
Asus выпустила компактную плату Pro WS B850M-ACE SE для рабочих станций на Ryzen 9000 и Epyc 4005 9 ч.