Сегодня 03 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → wayback machine

Архивировать интернет становится всё сложнее: Wayback Machine и Wikimedia страдают от дефицита HDD

Архивирование данных интернета оказывается всё более неподъёмной задачей из-за дефицита накопителей и роста цен на них. Жёсткие диски подорожали втрое, потому что оказались востребованными крупными компаниями. Это сильно осложняет работу таких проектов как Wayback Machine и Wikimedia.

 Источник изображения: Patrick Lindenberg / unsplash.com

Источник изображения: Patrick Lindenberg / unsplash.com

Некоммерческая организация Internet Archive, которая ставит своей целью обеспечить «доступ ко всем знаниям для всех», оказалась одной из организаций, пострадавших от кризиса. В её распоряжении хранилище объёмом около 210 Пбайт, и ещё 100 Тбайт ежедневно требует сервис Wayback Machine. Бум искусственного интеллекта превратил этот проект в «проблему, отнимающую у нас время и деньги», признаются его руководители. Для этой задачи идеально подходят жёсткие диски объёмом 28–30 Тбайт, но они часто отсутствуют на складах или продаются по сильно завышенным ценам. Отчасти эти проблемы помогают смягчить спонсоры проекта и сообщество — последнее, правда, только советами.

Ответственный за «Википедию» некоммерческий фонд Wikimedia испытывает сложные проблемы: 65 млн статей на платформе требует внушительных ресурсов, а главное — тщательно спланированного распределения бюджета, и текущая ситуация лишь усугубила эту проблему. Организация ощутила кризис при «закупке памяти и жёстких дисков, а также в отношении сроков поставки серверов и нашей способности размещать будущие заказы».

Ещё одна проблема состоит в том, что усложнились механизмы архивирования информации. Большие языковые модели ИИ обучаются на огромных массивах данных, которые подчас добываются незаконным путём — из-за этого владельцы многих сайтов блокируют доступ для средств сбора данных, не проводя различия между ИИ-ботами и добросовестными сервисами, которые собирают эту информацию в образовательных целях. Из-за подобных блокировок и роста цен на накопители не только крупные некоммерческие организации, но и одиночные энтузиасты вынуждены либо сокращать масштабы деятельности, либо вообще приостанавливать её — в ожидании, когда ситуация стабилизируется.

Активность архива интернета Wayback Machine резко рухнула в этом году, но скоро всё придёт в норму

Служба Wayback Machine проекта Internet Archive, занимающаяся созданием и хранением копий интернет-страниц, сейчас переживает своего рода спад — за последний год число создаваемых копий резко сократилось, обнаружили в Niemen Lab.

 Источник изображения: archive.org

Источник изображения: archive.org

С 1 января по 15 мая 2025 года сервис Wayback Machine сохранил 1,2 млн страниц со 100 крупных новостных сайтов, а с 17 мая по 1 октября текущего года с тех же 100 сайтов были сохранены всего 148 628 копий страниц, что соответствует сокращению на 87 %. Причиной тому стал «сбой у ряда отдельных проектов архивирования, из-за которого было создано меньше архивов для некоторых сайтов», сообщил директор сервиса Wayback Machine Марк Грэм (Mark Graham). Он добавил, что некоторые сохранённые после 16 мая материалы пока не появились на сайте, «поскольку ещё не созданы соответствующие индексы».

В подробности господин Грэм предпочёл не вдаваться, ограничившись упоминанием «различных операционных причин», связанных с «распределением ресурсов». Но причина сбоя, по его словам уже устранена, и скоро сайт продолжит работать в прежнем режиме. За последние несколько лет у проекта Internet Archive возникали проблемы и юридического характера: некоммерческая организация проиграла апелляцию в судебном разбирательстве, связанном с оцифровкой книг; а звукозаписывающие компании потребовали у неё $700 млн за проект, в рамках которого в открытый доступ выкладывались оцифровки старых виниловых пластинок.

Архив интернета возобновил работу после атаки, но пока в режиме «только для чтения»

Архив интернета, расположенный по адресу archive.org, возобновил работу после недавней хакерской атаки, но пока в режиме «только для чтения». Ранее одна из крупнейших в мире цифровых библиотек и Wayback Machine стали жертвами масштабной DDoS-атаки. Тогда хакерам удалось похитить базу данных, содержащую 31 млн уникальных записей о пользователях, включая электронные адреса, имена пользователей и хэшированные пароли.

 Источник изображения: web.archive.org

Источник изображения: web.archive.org

Режим «только для чтения» позволяет просматривать архивированные веб-страницы, но функция добавления новых данных в архив временно недоступна. Основатель Архива интернета Брюстер Кейл (Brewster Kahle) отметил: «Сервис снова в сети, однако возможны новые приостановки для проведения дополнительных технических работ». Это временное решение позволяет устранить уязвимости, выявленные в ходе кибератаки.

Команда Архива продолжает активно работать над восстановлением ключевых сервисов и усилением защиты. Помимо восстановления основной функциональности были возвращены в строй почтовые ящики сотрудников и краулеры для работы с национальными библиотеками.

Wayback Machine, важнейший инструмент Архива интернета, открывает доступ к более чем 916 млрд сохранённых веб-страниц, что делает его неоценимым ресурсом для изучения истории интернета. Его значимость возросла после того, как Google удалил ссылки на свои собственные кэшированные страницы из результатов поиска и начал добавлять ссылки на архивные сайты в Wayback Machine, ставший теперь главным инструментом доступа к старым версиям сайтов и архивным страницам.

Пользователи поисковика Google Search получат доступ к 860 млрд архивных веб-страниц через Wayback Machine

Google начал добавлять в результаты поиска ссылки на архивные копии веб-страниц из некоммерческой библиотеки «Архив Интернета», более известной как Wayback Machine. Это решение призвано компенсировать исчезновение привычной опции просмотра кэшированных страниц из поисковой выдачи Google. Пользователи получат доступ к более чем 860 млрд архивных веб-страниц, что открывает беспрецедентные возможности для изучения эволюции интернет-ресурсов, начиная с 1996 года.

 Источник изображения: web.archive.org

Источник изображения: web.archive.org

В феврале этого года компания приняла решение об отключении одной из своих старейших функций просмотра кэшированных страниц. Google SearchLiaison, официальный аккаунт Google по связям с общественностью в области поиска, так прокомментировал это решение: «Да, функция удалена. Знаем, это грустно. Нам тоже грустно. Это одна из наших старейших функций. Но она была предназначена для того, чтобы помочь людям получить доступ к страницам в те времена, когда часто нельзя было рассчитывать, что страница загрузится. В наши дни ситуация значительно улучшилась».

В качестве альтернативы Google предлагает интеграцию с Wayback Machine — масштабным проектом калифорнийской некоммерческой организации Internet Archive. Этот ресурс хранит более 860 млрд веб-страниц и более 99 петабайт данных, некоторые из которых датируются концом 1990-х годов. Эта колоссальная база данных позволяет пользователям не просто найти информацию, но и проследить эволюцию веб-сайтов на протяжении десятилетий.

Чтобы почувствовать себя веб-археологами, пользователям нужно нажать на три точки рядом с определённой ссылкой в поисковой выдаче, а затем выбрать «Подробнее об этой странице», чтобы перейти к ссылке на соответствующую страницу в Wayback Machine. Однако, несмотря на очевидные преимущества, новая функция имеет свои ограничения. Wayback Machine не может предоставить доступ к сайтам, владельцы которых запретили архивирование, или к контенту, защищённому паролем. Также важно отметить, что процесс реализации новой функциональности происходит постепенно, поэтому не все пользователи смогут воспользоваться ею одновременно.


window-new
Soft
Hard
Тренды 🔥
Microsoft представила ИИ-агента Scout, созданного на базе открытой архитектуры OpenClaw 3 ч.
Windows 11 получит более глубокую интеграцию с Linux — специально для разработчиков 3 ч.
Microsoft взяла курс на ИИ-независимость и представила свою первую рассуждающую модель MAI-Thinking-1 3 ч.
Google усложняет мошенникам процесс подмены номеров из числа доверенных 4 ч.
Следующей большой God of War станет игра про жену Кратоса в загробном мире богов — 23 минуты геймплея и первые подробности God of War Laufey 7 ч.
AMD выпустила драйвер с поддержкой F1 25: 2026 Season Pack и World of Tanks: Heat 11 ч.
«Люди не готовы»: работник CD Projekt Red предупредил фанатов в ожидании The Witcher 4 13 ч.
В Instagram и Facebook появится функция «Серии» для создания сериалов из Reels 14 ч.
Meta собирает переписку, историю браузера и содержимое буфера обмена сотрудников ради обучения ИИ 14 ч.
The Alters без альтеров: анонсирован научно-фантастический симулятор выживания с упором на физику Venus: The Last Ascent 15 ч.
Intel весьма своеобразно борется с дефицитом памяти, сохраняя поставки процессоров с поддержкой DDR4 3 мин.
Глава Intel заявил, что доминированию x86-совместимой архитектуры в серверном сегменте ничего не угрожает 34 мин.
Nvidia возобновила производство GeForce RTX 3060 12GB в Китае из-за нехватки недорогих современных видеокарт и проблем с поставками памяти 2 ч.
У Intel новый кризис с техпроцессом 18A: партнёры жалуются на нарастающий дефицит Panther Lake и Wildcat Lake 2 ч.
Microsoft готовит к выпуску мини-ПК Surface RTX Spark Dev Box для разработчиков 3 ч.
Новая статья: Повесть о том, как поссорились Сэм Джерриевич с Илоном Эрроловичем 7 ч.
Новая статья: Обзор ИБП Ippon Na+ Frosty 850 с натрий-ионным аккумулятором 9 ч.
ИИ пожирает всю память: аналитики прогнозируют подорожание DRAM ещё на 60 % 11 ч.
Blue Origin пообещала вернуть New Glenn к полётам через полгода после катастрофы, но мало кто в это верит 11 ч.
Создатель Borderlands показал ещё не анонсированные Google Pixel Watch 5, якобы найденные на дне моря 14 ч.