Сегодня 13 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → веб-страницы

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета

Интернет представляет собой невообразимо большое хранилище данных, насчитывающее сотни миллиардов проиндексированных веб-страниц. Можно подумать, что веб-пространство с годами только расширяется, но на деле это не совсем так. Новое исследование Pew Research Center наглядно показывает, насколько непродолжительный период времени существует веб-контент.

 Источник изображения: geralt / Pixabay

Источник изображения: geralt / Pixabay

Аналитики подсчитали, что четверть от общего числа веб-страниц, которые существовали в период с 2013 года по 2023 годы, по состоянию на октябрь 2023 года уже недоступны. В большинстве случаев это связано с тем, что с течением времени страницы сайтов радикально корректируются или же попросту удаляются. Для более старого контента эта тенденция также актуальна. Около 38 % веб-страниц, существовавших в 2013 году, недоступны в настоящее время. Если же рассматривать веб-страницы, существовавшие в 2023 году, то показатель недоступных в настоящее время составит 8 %.

Специалисты Pew Research Center изучили ссылки, которые появляются на правительственных и новостных сайтах, а также в разделе «Ссылки» на страницах Википедии по состоянии на весну этого года. Анализ показал, что 23 % новостных веб-страниц содержат хотя бы одну нерабочую ссылку, как и 21 % веб-страниц правительственных сайтов. Особенно часто неработающие ссылки встречаются на страницах сайтов местных органов власти (городских администраций). При этом 54 % страниц Википедии содержат в разделе «Ссылки» хотя бы один URL-адрес уже не существующей страницы.

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Страницы в социальных сетях

Чтобы проследить, как исчезают страницы в социальных сетях, аналитики собрали на платформе X выборку твитов в режиме онлайн весной 2023 года и следили за ними в течение трёх месяцев. В результате было установлено, что почти каждый пятый пост в соцсети перестаёт быть общедоступным спустя несколько месяцев после публикации. В 60 % случаев аккаунт, опубликовавший твит первоначально, за этот же период становится приватным, его действие приостанавливается или же учётная запись удаляется с платформы. В остальных 40 % случаев владелец аккаунта сам удаляет твит, но его учётная запись продолжает существовать. Отмечается, что более 40 % твитов на турецком или арабском языках исчезают с сайта в течение трёх месяцев с момента публикации.

Веб-страницы за последнее десятилетие

Для проведения этой части анализа специалисты собрали случайную выборку из чуть менее 1 млн веб-страниц из архивов Common Crawl. Аналитики отбирали страницы из архивов Common Crawl за каждый год, начиная с 2013 года (примерно 90 тыс. страниц за каждый год), и проверяли, существуют ли они в настоящее время.

Было установлено, что 25 % собранных веб-страниц в октябре 2023 года уже были недоступны. Это значение складывается из двух показателей: 16 % приходится на отдельно недоступные страницы на действующих сайтах, а ещё 9 % страниц недоступны, потому что перестал существовать весь сайт. Вполне логично, что большая часть недоступных сейчас ресурсов приходится на более старые версии архивов (38 % отобранных страниц, существовавших в 2013 году, перестали функционировать к октябрю 2023 года).

Ссылки на правительственных сайтах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Для анализа этого сегмента онлайн-пространства было выбрано около 500 тыс. страниц с правительственных веб-сайтов из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах размещалось 42 млн ссылок (86 % внутренних ссылок). Примерно три четверти веб-страниц из выборки содержали хотя бы одну ссылку, а в среднем на странице находилось 50 ссылок. В общей сложности 21 % исследованных страниц на правительственных сайтах содержали хотя бы одну неработающую ссылку.

Ссылки на новостных порталах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В этой категории анализировались 500 тыс. страниц с 2063 сайтов, которые компания comScore отнесла к категории «Новости и информация». Страницы собирались из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах содержалось 14 млн ссылок (в среднем 20 ссылок на страницу). После проверки оказалось, что 5 % всех ссылок из выборки уже не работают и на 23 % страниц из выборки содержится хотя бы одна ссылка на не существующий ресурс. Около 25 % страниц новостных сайтов из топ-20 по посещаемости имеют хотя бы одну нерабочую ссылку.

Справочные ссылки в Википедии

Аналитики выбрали 50 тыс. страниц Википедии на английском языке и изучили ссылки, которые содержались на них в разделе «Ссылки». Около 82 % страниц содержали хотя бы одну нерабочую внешнюю ссылку. В общей сложности на всех страницах из выборки содержится более 1 млн ссылок, причём 11 % из них больше недоступны.

Посты в соцсети X

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В исследовании участвовали 5 млн твитов, опубликованных с 8 марта по 27 апреля 2023 года в соцсети X, которая на тот момент называлась Twitter. Далее исследователи следили за этими постами до 15 июня того же года и ежедневно проверяли их на предмет доступности. К концу исследования 18 % от начальной базы твитов уже не были доступны для просмотра на платформе. В большинстве случаев это стало следствием того, что учётная запись автора заблокирована или полностью удалена.

Отмечается, что большая часть твитов удаляется из X в течение месяца. При этом 1 % постов исчезает в течение часа после публикации, 3 % — в течение дня, 10 % — в течение недели, 15 % — в течение месяца. Другими словами, около половины твитов, которые исчезают с платформы, становятся недоступны в течение первых шести дней с момента публикации и 90 % таких твитов исчезают за 46 дней.


window-new
Soft
Hard
Тренды 🔥
xAI будет создавать виртуальные миры для игр и обучения роботов 2 ч.
Пользователи ChatGPT снова могут удалять свои чаты безвозвратно 21 ч.
Арт-директор Halo покинул студию после 17 лет работы и намекнул на проблемы в команде разработчиков 23 ч.
Один из основателей ИИ-стартапа Thinking Machines переметнулся к Марку Цукербергу 12-10 08:17
Apple завершила поддержку своего бесплатного видеоредактора Clips 12-10 06:28
Новая статья: CloverPit — добро пожаловать в яму. Рецензия 12-10 00:07
Хакерская группировка объявила о взломе Nintendo — похищены файлы выпущенных и грядущих игр 11-10 19:32
Chrome сам будет блокировать уведомления с сайтов, которые пользователь игнорирует 11-10 14:40
ChatGPT прошёл стресс-тест на политическую предвзятость, но не безупречно 11-10 14:24
Telegram получил большое обновление: переписки в групповых звонках, комментарии к профилям и другие нововведения 11-10 11:57
Полиция призывает подростков прекратить разыгрывать родителей с помощью сгенерированных ИИ фотографий бездомных 16 мин.
Вложи $5 млн — получи $75 млн: NVIDIA похвасталась новыми рекордами в комплексном бенчмарке InferenceMAX v1 9 ч.
Новая статья: Обзор материнской платы MSI MPG B850I Edge Ti WiFi: не называй меня малышкой 9 ч.
ИИ спас США от рецессии, став единственным драйвером роста в 2025 году 18 ч.
Graphcore, спасённая SoftBank, воспрянула духом — штат в Великобритании удвоится, а в разработку в Индии инвестируют $1 млрд 18 ч.
В наши дни все высокопроизводительные вычисления связаны с ИИ, как считает глава AMD Лиза Су 12-10 07:53
Производство чипов в наши дни требует атомарной точности, как утверждает Applied Materials 12-10 07:13
Обострение между США и Китаем грозит серьёзным ударом по мировой индустрии чипов 12-10 06:11
Китай грозит отправить США в рецессию — новые санкции на редкоземельные металлы ударят по ИИ 11-10 23:34
Акции китайских чипмейкеров взлетели, но инвесторы опасаются перегрева рынка 11-10 23:20