Сегодня 14 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → wayback machine

Архивировать интернет становится всё сложнее: Wayback Machine и Wikimedia страдают от дефицита HDD

Архивирование данных интернета оказывается всё более неподъёмной задачей из-за дефицита накопителей и роста цен на них. Жёсткие диски подорожали втрое, потому что оказались востребованными крупными компаниями. Это сильно осложняет работу таких проектов как Wayback Machine и Wikimedia.

 Источник изображения: Patrick Lindenberg / unsplash.com

Источник изображения: Patrick Lindenberg / unsplash.com

Некоммерческая организация Internet Archive, которая ставит своей целью обеспечить «доступ ко всем знаниям для всех», оказалась одной из организаций, пострадавших от кризиса. В её распоряжении хранилище объёмом около 210 Пбайт, и ещё 100 Тбайт ежедневно требует сервис Wayback Machine. Бум искусственного интеллекта превратил этот проект в «проблему, отнимающую у нас время и деньги», признаются его руководители. Для этой задачи идеально подходят жёсткие диски объёмом 28–30 Тбайт, но они часто отсутствуют на складах или продаются по сильно завышенным ценам. Отчасти эти проблемы помогают смягчить спонсоры проекта и сообщество — последнее, правда, только советами.

Ответственный за «Википедию» некоммерческий фонд Wikimedia испытывает сложные проблемы: 65 млн статей на платформе требует внушительных ресурсов, а главное — тщательно спланированного распределения бюджета, и текущая ситуация лишь усугубила эту проблему. Организация ощутила кризис при «закупке памяти и жёстких дисков, а также в отношении сроков поставки серверов и нашей способности размещать будущие заказы».

Ещё одна проблема состоит в том, что усложнились механизмы архивирования информации. Большие языковые модели ИИ обучаются на огромных массивах данных, которые подчас добываются незаконным путём — из-за этого владельцы многих сайтов блокируют доступ для средств сбора данных, не проводя различия между ИИ-ботами и добросовестными сервисами, которые собирают эту информацию в образовательных целях. Из-за подобных блокировок и роста цен на накопители не только крупные некоммерческие организации, но и одиночные энтузиасты вынуждены либо сокращать масштабы деятельности, либо вообще приостанавливать её — в ожидании, когда ситуация стабилизируется.

Активность архива интернета Wayback Machine резко рухнула в этом году, но скоро всё придёт в норму

Служба Wayback Machine проекта Internet Archive, занимающаяся созданием и хранением копий интернет-страниц, сейчас переживает своего рода спад — за последний год число создаваемых копий резко сократилось, обнаружили в Niemen Lab.

 Источник изображения: archive.org

Источник изображения: archive.org

С 1 января по 15 мая 2025 года сервис Wayback Machine сохранил 1,2 млн страниц со 100 крупных новостных сайтов, а с 17 мая по 1 октября текущего года с тех же 100 сайтов были сохранены всего 148 628 копий страниц, что соответствует сокращению на 87 %. Причиной тому стал «сбой у ряда отдельных проектов архивирования, из-за которого было создано меньше архивов для некоторых сайтов», сообщил директор сервиса Wayback Machine Марк Грэм (Mark Graham). Он добавил, что некоторые сохранённые после 16 мая материалы пока не появились на сайте, «поскольку ещё не созданы соответствующие индексы».

В подробности господин Грэм предпочёл не вдаваться, ограничившись упоминанием «различных операционных причин», связанных с «распределением ресурсов». Но причина сбоя, по его словам уже устранена, и скоро сайт продолжит работать в прежнем режиме. За последние несколько лет у проекта Internet Archive возникали проблемы и юридического характера: некоммерческая организация проиграла апелляцию в судебном разбирательстве, связанном с оцифровкой книг; а звукозаписывающие компании потребовали у неё $700 млн за проект, в рамках которого в открытый доступ выкладывались оцифровки старых виниловых пластинок.

Архив интернета возобновил работу после атаки, но пока в режиме «только для чтения»

Архив интернета, расположенный по адресу archive.org, возобновил работу после недавней хакерской атаки, но пока в режиме «только для чтения». Ранее одна из крупнейших в мире цифровых библиотек и Wayback Machine стали жертвами масштабной DDoS-атаки. Тогда хакерам удалось похитить базу данных, содержащую 31 млн уникальных записей о пользователях, включая электронные адреса, имена пользователей и хэшированные пароли.

 Источник изображения: web.archive.org

Источник изображения: web.archive.org

Режим «только для чтения» позволяет просматривать архивированные веб-страницы, но функция добавления новых данных в архив временно недоступна. Основатель Архива интернета Брюстер Кейл (Brewster Kahle) отметил: «Сервис снова в сети, однако возможны новые приостановки для проведения дополнительных технических работ». Это временное решение позволяет устранить уязвимости, выявленные в ходе кибератаки.

Команда Архива продолжает активно работать над восстановлением ключевых сервисов и усилением защиты. Помимо восстановления основной функциональности были возвращены в строй почтовые ящики сотрудников и краулеры для работы с национальными библиотеками.

Wayback Machine, важнейший инструмент Архива интернета, открывает доступ к более чем 916 млрд сохранённых веб-страниц, что делает его неоценимым ресурсом для изучения истории интернета. Его значимость возросла после того, как Google удалил ссылки на свои собственные кэшированные страницы из результатов поиска и начал добавлять ссылки на архивные сайты в Wayback Machine, ставший теперь главным инструментом доступа к старым версиям сайтов и архивным страницам.

Пользователи поисковика Google Search получат доступ к 860 млрд архивных веб-страниц через Wayback Machine

Google начал добавлять в результаты поиска ссылки на архивные копии веб-страниц из некоммерческой библиотеки «Архив Интернета», более известной как Wayback Machine. Это решение призвано компенсировать исчезновение привычной опции просмотра кэшированных страниц из поисковой выдачи Google. Пользователи получат доступ к более чем 860 млрд архивных веб-страниц, что открывает беспрецедентные возможности для изучения эволюции интернет-ресурсов, начиная с 1996 года.

 Источник изображения: web.archive.org

Источник изображения: web.archive.org

В феврале этого года компания приняла решение об отключении одной из своих старейших функций просмотра кэшированных страниц. Google SearchLiaison, официальный аккаунт Google по связям с общественностью в области поиска, так прокомментировал это решение: «Да, функция удалена. Знаем, это грустно. Нам тоже грустно. Это одна из наших старейших функций. Но она была предназначена для того, чтобы помочь людям получить доступ к страницам в те времена, когда часто нельзя было рассчитывать, что страница загрузится. В наши дни ситуация значительно улучшилась».

В качестве альтернативы Google предлагает интеграцию с Wayback Machine — масштабным проектом калифорнийской некоммерческой организации Internet Archive. Этот ресурс хранит более 860 млрд веб-страниц и более 99 петабайт данных, некоторые из которых датируются концом 1990-х годов. Эта колоссальная база данных позволяет пользователям не просто найти информацию, но и проследить эволюцию веб-сайтов на протяжении десятилетий.

Чтобы почувствовать себя веб-археологами, пользователям нужно нажать на три точки рядом с определённой ссылкой в поисковой выдаче, а затем выбрать «Подробнее об этой странице», чтобы перейти к ссылке на соответствующую страницу в Wayback Machine. Однако, несмотря на очевидные преимущества, новая функция имеет свои ограничения. Wayback Machine не может предоставить доступ к сайтам, владельцы которых запретили архивирование, или к контенту, защищённому паролем. Также важно отметить, что процесс реализации новой функциональности происходит постепенно, поэтому не все пользователи смогут воспользоваться ею одновременно.


window-new
Soft
Hard
Тренды 🔥
К заданию готов: шпионский боевик 007 First Light от создателей Hitman отправился на золото за две недели до релиза 4 ч.
Microsoft исправила ошибку в Windows Autopatch, из-за которой драйверы обновлялись без разрешения 6 ч.
Meta запустила сервис Instants для обмена спонтанными фото без ретуши 7 ч.
Anthropic научила Claude вести бухгалтерию, продажи и маркетинг для малого бизнеса 7 ч.
Devolver Digital анонсировала The Talos Principle 3 — грандиозный финал трилогии философских головоломок от создателей Serious Sam 7 ч.
«Ваши разговоры не сохраняются»: в WhatsApp появились «Инкогнито-чаты» для приватных бесед с ИИ 8 ч.
Уход Sora открыл дорогу конкурентам: ИИ-генераторы видео Kling AI и AI Video ворвались в топы Apple App Store 8 ч.
Аналитики: продажи амбициозного боевика Saros от создателей Returnal не впечатлят Sony 9 ч.
Выручка Nebius Аркадия Воложа взлетела на 684 % благодаря буму ИИ 10 ч.
Linux снова под ударом: раскрыт эксплойт Fragnesia, который превратит любого пользователя в администратора 10 ч.
Технологическую отрасль накрыло цунами увольнений — более 100 тысяч сотрудников потеряли работу с начала года 5 ч.
Первый в Африке гравитационный аккумулятор построят в ЮАР 6 ч.
Apple нарастила продажи в США, тогда как Android-смартфоны потеряли более 14 % 7 ч.
Canon представила полнокадровую беззеркалку EOS R6 V с вентилятором, но без видоискателя 7 ч.
Представлена полнокадровая беззеркалка Sony A7R VI с многослойным 66,8-Мп сенсором — серийную съёмку разогнали до 30 кадров/с 7 ч.
Curator вошла в число крупнейших ИБ-компаний России 8 ч.
Выручка Tencent не оправдала прогнозов, несмотря на успехи игрового бизнеса и ИИ 8 ч.
Xiaomi скоро представит флагман Xiaomi 17 Max, фитнес-браслет Smart Band 10 Pro и первые спортивные наушники 9 ч.
Аэрокосмический ИИ-стартап Aetherflux сменил имя на Cowboy Space Corporation и привлёк $275 млн на создание орбитального ЦОД 10 ч.
Нидерланды выступили против новых санкций США на поставки чипового оборудования ASML в Китай 10 ч.