|
Опрос
|
реклама
Быстрый переход
Архивировать интернет становится всё сложнее: Wayback Machine и Wikimedia страдают от дефицита HDD
08.05.2026 [17:21],
Павел Котов
Архивирование данных интернета оказывается всё более неподъёмной задачей из-за дефицита накопителей и роста цен на них. Жёсткие диски подорожали втрое, потому что оказались востребованными крупными компаниями. Это сильно осложняет работу таких проектов как Wayback Machine и Wikimedia.
Источник изображения: Patrick Lindenberg / unsplash.com Некоммерческая организация Internet Archive, которая ставит своей целью обеспечить «доступ ко всем знаниям для всех», оказалась одной из организаций, пострадавших от кризиса. В её распоряжении хранилище объёмом около 210 Пбайт, и ещё 100 Тбайт ежедневно требует сервис Wayback Machine. Бум искусственного интеллекта превратил этот проект в «проблему, отнимающую у нас время и деньги», признаются его руководители. Для этой задачи идеально подходят жёсткие диски объёмом 28–30 Тбайт, но они часто отсутствуют на складах или продаются по сильно завышенным ценам. Отчасти эти проблемы помогают смягчить спонсоры проекта и сообщество — последнее, правда, только советами. Ответственный за «Википедию» некоммерческий фонд Wikimedia испытывает сложные проблемы: 65 млн статей на платформе требует внушительных ресурсов, а главное — тщательно спланированного распределения бюджета, и текущая ситуация лишь усугубила эту проблему. Организация ощутила кризис при «закупке памяти и жёстких дисков, а также в отношении сроков поставки серверов и нашей способности размещать будущие заказы». Ещё одна проблема состоит в том, что усложнились механизмы архивирования информации. Большие языковые модели ИИ обучаются на огромных массивах данных, которые подчас добываются незаконным путём — из-за этого владельцы многих сайтов блокируют доступ для средств сбора данных, не проводя различия между ИИ-ботами и добросовестными сервисами, которые собирают эту информацию в образовательных целях. Из-за подобных блокировок и роста цен на накопители не только крупные некоммерческие организации, но и одиночные энтузиасты вынуждены либо сокращать масштабы деятельности, либо вообще приостанавливать её — в ожидании, когда ситуация стабилизируется. Активность архива интернета Wayback Machine резко рухнула в этом году, но скоро всё придёт в норму
22.10.2025 [17:07],
Павел Котов
Служба Wayback Machine проекта Internet Archive, занимающаяся созданием и хранением копий интернет-страниц, сейчас переживает своего рода спад — за последний год число создаваемых копий резко сократилось, обнаружили в Niemen Lab.
Источник изображения: archive.org С 1 января по 15 мая 2025 года сервис Wayback Machine сохранил 1,2 млн страниц со 100 крупных новостных сайтов, а с 17 мая по 1 октября текущего года с тех же 100 сайтов были сохранены всего 148 628 копий страниц, что соответствует сокращению на 87 %. Причиной тому стал «сбой у ряда отдельных проектов архивирования, из-за которого было создано меньше архивов для некоторых сайтов», сообщил директор сервиса Wayback Machine Марк Грэм (Mark Graham). Он добавил, что некоторые сохранённые после 16 мая материалы пока не появились на сайте, «поскольку ещё не созданы соответствующие индексы». В подробности господин Грэм предпочёл не вдаваться, ограничившись упоминанием «различных операционных причин», связанных с «распределением ресурсов». Но причина сбоя, по его словам уже устранена, и скоро сайт продолжит работать в прежнем режиме. За последние несколько лет у проекта Internet Archive возникали проблемы и юридического характера: некоммерческая организация проиграла апелляцию в судебном разбирательстве, связанном с оцифровкой книг; а звукозаписывающие компании потребовали у неё $700 млн за проект, в рамках которого в открытый доступ выкладывались оцифровки старых виниловых пластинок. Архив интернета возобновил работу после атаки, но пока в режиме «только для чтения»
14.10.2024 [14:23],
Дмитрий Федоров
Архив интернета, расположенный по адресу archive.org, возобновил работу после недавней хакерской атаки, но пока в режиме «только для чтения». Ранее одна из крупнейших в мире цифровых библиотек и Wayback Machine стали жертвами масштабной DDoS-атаки. Тогда хакерам удалось похитить базу данных, содержащую 31 млн уникальных записей о пользователях, включая электронные адреса, имена пользователей и хэшированные пароли.
Источник изображения: web.archive.org Режим «только для чтения» позволяет просматривать архивированные веб-страницы, но функция добавления новых данных в архив временно недоступна. Основатель Архива интернета Брюстер Кейл (Brewster Kahle) отметил: «Сервис снова в сети, однако возможны новые приостановки для проведения дополнительных технических работ». Это временное решение позволяет устранить уязвимости, выявленные в ходе кибератаки. Команда Архива продолжает активно работать над восстановлением ключевых сервисов и усилением защиты. Помимо восстановления основной функциональности были возвращены в строй почтовые ящики сотрудников и краулеры для работы с национальными библиотеками. Wayback Machine, важнейший инструмент Архива интернета, открывает доступ к более чем 916 млрд сохранённых веб-страниц, что делает его неоценимым ресурсом для изучения истории интернета. Его значимость возросла после того, как Google удалил ссылки на свои собственные кэшированные страницы из результатов поиска и начал добавлять ссылки на архивные сайты в Wayback Machine, ставший теперь главным инструментом доступа к старым версиям сайтов и архивным страницам. Пользователи поисковика Google Search получат доступ к 860 млрд архивных веб-страниц через Wayback Machine
12.09.2024 [06:16],
Дмитрий Федоров
Google начал добавлять в результаты поиска ссылки на архивные копии веб-страниц из некоммерческой библиотеки «Архив Интернета», более известной как Wayback Machine. Это решение призвано компенсировать исчезновение привычной опции просмотра кэшированных страниц из поисковой выдачи Google. Пользователи получат доступ к более чем 860 млрд архивных веб-страниц, что открывает беспрецедентные возможности для изучения эволюции интернет-ресурсов, начиная с 1996 года.
Источник изображения: web.archive.org В феврале этого года компания приняла решение об отключении одной из своих старейших функций просмотра кэшированных страниц. Google SearchLiaison, официальный аккаунт Google по связям с общественностью в области поиска, так прокомментировал это решение: «Да, функция удалена. Знаем, это грустно. Нам тоже грустно. Это одна из наших старейших функций. Но она была предназначена для того, чтобы помочь людям получить доступ к страницам в те времена, когда часто нельзя было рассчитывать, что страница загрузится. В наши дни ситуация значительно улучшилась». В качестве альтернативы Google предлагает интеграцию с Wayback Machine — масштабным проектом калифорнийской некоммерческой организации Internet Archive. Этот ресурс хранит более 860 млрд веб-страниц и более 99 петабайт данных, некоторые из которых датируются концом 1990-х годов. Эта колоссальная база данных позволяет пользователям не просто найти информацию, но и проследить эволюцию веб-сайтов на протяжении десятилетий. Чтобы почувствовать себя веб-археологами, пользователям нужно нажать на три точки рядом с определённой ссылкой в поисковой выдаче, а затем выбрать «Подробнее об этой странице», чтобы перейти к ссылке на соответствующую страницу в Wayback Machine. Однако, несмотря на очевидные преимущества, новая функция имеет свои ограничения. Wayback Machine не может предоставить доступ к сайтам, владельцы которых запретили архивирование, или к контенту, защищённому паролем. Также важно отметить, что процесс реализации новой функциональности происходит постепенно, поэтому не все пользователи смогут воспользоваться ею одновременно. |