Сегодня 23 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → wayback machine

Архивировать интернет становится всё сложнее: Wayback Machine и Wikimedia страдают от дефицита HDD

Архивирование данных интернета оказывается всё более неподъёмной задачей из-за дефицита накопителей и роста цен на них. Жёсткие диски подорожали втрое, потому что оказались востребованными крупными компаниями. Это сильно осложняет работу таких проектов как Wayback Machine и Wikimedia.

 Источник изображения: Patrick Lindenberg / unsplash.com

Источник изображения: Patrick Lindenberg / unsplash.com

Некоммерческая организация Internet Archive, которая ставит своей целью обеспечить «доступ ко всем знаниям для всех», оказалась одной из организаций, пострадавших от кризиса. В её распоряжении хранилище объёмом около 210 Пбайт, и ещё 100 Тбайт ежедневно требует сервис Wayback Machine. Бум искусственного интеллекта превратил этот проект в «проблему, отнимающую у нас время и деньги», признаются его руководители. Для этой задачи идеально подходят жёсткие диски объёмом 28–30 Тбайт, но они часто отсутствуют на складах или продаются по сильно завышенным ценам. Отчасти эти проблемы помогают смягчить спонсоры проекта и сообщество — последнее, правда, только советами.

Ответственный за «Википедию» некоммерческий фонд Wikimedia испытывает сложные проблемы: 65 млн статей на платформе требует внушительных ресурсов, а главное — тщательно спланированного распределения бюджета, и текущая ситуация лишь усугубила эту проблему. Организация ощутила кризис при «закупке памяти и жёстких дисков, а также в отношении сроков поставки серверов и нашей способности размещать будущие заказы».

Ещё одна проблема состоит в том, что усложнились механизмы архивирования информации. Большие языковые модели ИИ обучаются на огромных массивах данных, которые подчас добываются незаконным путём — из-за этого владельцы многих сайтов блокируют доступ для средств сбора данных, не проводя различия между ИИ-ботами и добросовестными сервисами, которые собирают эту информацию в образовательных целях. Из-за подобных блокировок и роста цен на накопители не только крупные некоммерческие организации, но и одиночные энтузиасты вынуждены либо сокращать масштабы деятельности, либо вообще приостанавливать её — в ожидании, когда ситуация стабилизируется.

Активность архива интернета Wayback Machine резко рухнула в этом году, но скоро всё придёт в норму

Служба Wayback Machine проекта Internet Archive, занимающаяся созданием и хранением копий интернет-страниц, сейчас переживает своего рода спад — за последний год число создаваемых копий резко сократилось, обнаружили в Niemen Lab.

 Источник изображения: archive.org

Источник изображения: archive.org

С 1 января по 15 мая 2025 года сервис Wayback Machine сохранил 1,2 млн страниц со 100 крупных новостных сайтов, а с 17 мая по 1 октября текущего года с тех же 100 сайтов были сохранены всего 148 628 копий страниц, что соответствует сокращению на 87 %. Причиной тому стал «сбой у ряда отдельных проектов архивирования, из-за которого было создано меньше архивов для некоторых сайтов», сообщил директор сервиса Wayback Machine Марк Грэм (Mark Graham). Он добавил, что некоторые сохранённые после 16 мая материалы пока не появились на сайте, «поскольку ещё не созданы соответствующие индексы».

В подробности господин Грэм предпочёл не вдаваться, ограничившись упоминанием «различных операционных причин», связанных с «распределением ресурсов». Но причина сбоя, по его словам уже устранена, и скоро сайт продолжит работать в прежнем режиме. За последние несколько лет у проекта Internet Archive возникали проблемы и юридического характера: некоммерческая организация проиграла апелляцию в судебном разбирательстве, связанном с оцифровкой книг; а звукозаписывающие компании потребовали у неё $700 млн за проект, в рамках которого в открытый доступ выкладывались оцифровки старых виниловых пластинок.

Архив интернета возобновил работу после атаки, но пока в режиме «только для чтения»

Архив интернета, расположенный по адресу archive.org, возобновил работу после недавней хакерской атаки, но пока в режиме «только для чтения». Ранее одна из крупнейших в мире цифровых библиотек и Wayback Machine стали жертвами масштабной DDoS-атаки. Тогда хакерам удалось похитить базу данных, содержащую 31 млн уникальных записей о пользователях, включая электронные адреса, имена пользователей и хэшированные пароли.

 Источник изображения: web.archive.org

Источник изображения: web.archive.org

Режим «только для чтения» позволяет просматривать архивированные веб-страницы, но функция добавления новых данных в архив временно недоступна. Основатель Архива интернета Брюстер Кейл (Brewster Kahle) отметил: «Сервис снова в сети, однако возможны новые приостановки для проведения дополнительных технических работ». Это временное решение позволяет устранить уязвимости, выявленные в ходе кибератаки.

Команда Архива продолжает активно работать над восстановлением ключевых сервисов и усилением защиты. Помимо восстановления основной функциональности были возвращены в строй почтовые ящики сотрудников и краулеры для работы с национальными библиотеками.

Wayback Machine, важнейший инструмент Архива интернета, открывает доступ к более чем 916 млрд сохранённых веб-страниц, что делает его неоценимым ресурсом для изучения истории интернета. Его значимость возросла после того, как Google удалил ссылки на свои собственные кэшированные страницы из результатов поиска и начал добавлять ссылки на архивные сайты в Wayback Machine, ставший теперь главным инструментом доступа к старым версиям сайтов и архивным страницам.

Пользователи поисковика Google Search получат доступ к 860 млрд архивных веб-страниц через Wayback Machine

Google начал добавлять в результаты поиска ссылки на архивные копии веб-страниц из некоммерческой библиотеки «Архив Интернета», более известной как Wayback Machine. Это решение призвано компенсировать исчезновение привычной опции просмотра кэшированных страниц из поисковой выдачи Google. Пользователи получат доступ к более чем 860 млрд архивных веб-страниц, что открывает беспрецедентные возможности для изучения эволюции интернет-ресурсов, начиная с 1996 года.

 Источник изображения: web.archive.org

Источник изображения: web.archive.org

В феврале этого года компания приняла решение об отключении одной из своих старейших функций просмотра кэшированных страниц. Google SearchLiaison, официальный аккаунт Google по связям с общественностью в области поиска, так прокомментировал это решение: «Да, функция удалена. Знаем, это грустно. Нам тоже грустно. Это одна из наших старейших функций. Но она была предназначена для того, чтобы помочь людям получить доступ к страницам в те времена, когда часто нельзя было рассчитывать, что страница загрузится. В наши дни ситуация значительно улучшилась».

В качестве альтернативы Google предлагает интеграцию с Wayback Machine — масштабным проектом калифорнийской некоммерческой организации Internet Archive. Этот ресурс хранит более 860 млрд веб-страниц и более 99 петабайт данных, некоторые из которых датируются концом 1990-х годов. Эта колоссальная база данных позволяет пользователям не просто найти информацию, но и проследить эволюцию веб-сайтов на протяжении десятилетий.

Чтобы почувствовать себя веб-археологами, пользователям нужно нажать на три точки рядом с определённой ссылкой в поисковой выдаче, а затем выбрать «Подробнее об этой странице», чтобы перейти к ссылке на соответствующую страницу в Wayback Machine. Однако, несмотря на очевидные преимущества, новая функция имеет свои ограничения. Wayback Machine не может предоставить доступ к сайтам, владельцы которых запретили архивирование, или к контенту, защищённому паролем. Также важно отметить, что процесс реализации новой функциональности происходит постепенно, поэтому не все пользователи смогут воспользоваться ею одновременно.


window-new
Soft
Hard
Тренды 🔥
Глава WhatsApp покинет свой пост — его сменит основатель индийского финтех-стартапа Шах 17 мин.
«Лорд-капитаны, мы услышали ваше мнение»: Owlcat Games убрала лаунчер из Warhammer 40,000: Rogue Trader спустя день после запуска 19 мин.
Мобильный Firefox научился составлять сводки страниц, если встряхнуть смартфон 26 мин.
Звезда God of War Laufey знала об игре с 2018 года — Santa Monica запланировала приключения жены Кратоса почти десять лет назад 2 ч.
Во втором трейлере GTA VI спустя больше года нашли отсылку к Томми Версетти из GTA: Vice City 3 ч.
Cloudflare и крупнейшие разработчики браузеров научат сайты отличать людей от ботов 3 ч.
Анонсирован Give Us A Sign — кооперативный хоррор про поиск призраков на чересчур «живых» локациях 4 ч.
OpenAI запустила инициативу Patch the Planet, чтобы помочь разработчикам открытого ПО в поиске ошибок 4 ч.
Блогер показал 25 минут геймплея мультиплеерного мода для The Last of Us Part II — игроки в восторге 6 ч.
«Такого никто никогда не видел»: загадочный хоррор OD будет «максимально страшным», но Кодзима придумал особую систему для пугливых игроков 6 ч.
Китай снова на вершине TOP500: суперкомпьютер LineShine без чипов Nvidia, Intel и AMD стал самым мощным в мире 3 мин.
В Китае создали керамический литиевый аккумулятор, способный работать в кипятке — для носимой электроники и космоса 10 мин.
Steam Machine будет поставляться с одним модулем DDR5 на 16 Гбайт или двумя по 8 Гбайт 42 мин.
Samsung уже выручила на поставках HBM4 более $1 млрд, а SK hynix начала сдерживать расширение поставок 2 ч.
Samsung показала первую смартфонную память UFS 5.0 — как не самые быстрые SSD с PCIe 5.0 2 ч.
Автономный грузовик «Яндекса» впервые совершил поездку на 700 км — не без подстраховки 2 ч.
От секретного китайского многоразового космоплана на орбите отделился загадочный объект 2 ч.
Роботы рано или поздно заменят до 700 000 курьеров китайской JD.com, заявил глава компании 2 ч.
Акции Alphabet пережили худший день более чем за год — компания разом подешевела на 5 % 2 ч.
Трамп распорядился к 2028 году построить в США мощный квантовый компьютер 3 ч.