Сегодня 23 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Сборщики данных для ИИ оказались виновниками массового замедления сайтов по всему интернету

Платформа Git-хостинга открытых проектов SourceHut заявила, что работа её сервисов замедлилась из-за веб-сканеров, которые запускают компании — разработчики систем искусственного интеллекта. Похожие жалобы всё чаще поступают и от владельцев других ресурсов.

 Источник изображения: Kai Wenzel / unsplash.com

Источник изображения: Kai Wenzel / unsplash.com

Чтобы ограничить трафик от ИИ-ботов, SourceHut пришлось развернуть Nepenthes — средство защиты от недобросовестно работающих веб-сканеров, собирающих данные для обучения моделей ИИ. Администрация платформы в одностороннем порядке целиком заблокировала диапазоны адресов нескольких облачных провайдеров, в том числе Google Cloud и Microsoft Azure, из-за чрезмерных объёмов трафика от развёрнутых в их сетях ботов. Владельцам добросовестно работающих сервисов на этих инфраструктурах рекомендовали связываться с администрацией SourceHut в индивидуальном порядке, чтобы добавлять их в исключения. В 2022 году SourceHut также пострадала из-за слишком частых обращений к её ресурсам от службы Google Go Module Mirror.

В 2023 году OpenAI заверила, что её боты будут выполнять директивы из файлов robots.txt, указывающих правила обработки данных с сайтов веб-сканерами. Аналогичные обязательства взяли на себя и другие разработчики ИИ, но жалобы на злоупотребления продолжают поступать. Летом минувшего года сайт iFixit, в частности, подвергся нашествию со стороны бота Anthropic Claudebot. В декабре хостер Vercel сообщил о значительном присутствии ИИ-сканеров в его инфраструктуре: OpenAI GPTbot отправил в его сеть 569 млн запросов, Anthropic Claude — 370 млн. В совокупности они достигли около 20 % от 4,5 млрд запросов Googlebot, который используется для индексации ресурсов в Google.

 Источник изображения: Kai Wenzel / unsplash.com

Источник изображения: Kai Wenzel / unsplash.com

Тогда же разработчик распределённой соцсети Diaspora Деннис Шуберт (Dennis Schubert) пожаловался, что за предшествующие 60 дней на ИИ-ботов пришлись 70 % трафика на его сервер. Публикация обрела вирусную популярность, и активность ИИ-сканеров резко сократилась; однако сетевые хулиганы устроили на его ресурс массовое нашествие запросов от клиентов со значением строки user-agent, совпадающим с OpenAI GPTbot. Вот только настоящий ИИ-бот OpenAI отправляет запросы из инфраструктуры Microsoft Azure, а в случае с сервером Diaspora они исходили с адресов AWS и даже от американских интернет-провайдеров.

Иногда ситуация осложняется тем, что некоторые боты имеют несколько предназначений. Так, Meta AI bot и AppleBot собирают данные исключительно для обучения ИИ, тогда как GoogleBot служит и для ИИ, и для индексации в поиске. Чтобы избежать путаницы, Google в 2023 году добавила отдельное значение Google-Extended для инструментов обучения ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В России разрешат искать экстремистские материалы в интернете, но только учёным и правоохранителям 3 ч.
«Не все изменения окончательны»: разработчики Slay the Spire 2 отреагировали на панику фанатов из-за первого обновления баланса игры 3 ч.
Capcom заинтриговала фанатов Dragon’s Dogma 2 — на иллюстрации ко второй годовщине игры углядели тизер крупного DLC 4 ч.
Марк Цукерберг создаёт ИИ-гендира: агента, который поможет ему руководить Meta 5 ч.
Samsung научила смартфоны Galaxy S26 передавать файлы на iPhone через AirDrop 5 ч.
Ошибочка вышла: разработчики Crimson Desert попались на использовании генеративного ИИ, но пообещали всё исправить 6 ч.
«Ждал этого пять лет»: ролевой экшен Minecraft Dungeons в духе Diablo всё же получит продолжение, причём уже скоро 7 ч.
Microsoft пообещала сделать Windows 11 «более расслабленной и спокойной» 16 ч.
Программисты всё больше пользуются ИИ, а в некоторых компаниях это даже превратилось в соревнование 22-03 15:39
Франция обвинила Илона Маска в завышении стоимости X и xAI дипфейками с обнажёнкой 22-03 13:05
iPhone Air оказался намного популярнее iPhone 16 Plus, а модем Apple C1X почти догнал аналоги Qualcomm 12 мин.
После волны критики разработчик Crimson Desert пообещал добавить поддержку видеокарт Intel Arc 16 мин.
Москвичи вынужденно пересели на Wi-Fi: трафик публичных точек доступа вырос в разы из-за отключений мобильного интернета 2 ч.
Мировой рынок чипов разросся до $831 млрд в прошлом году — сильнее всех выросла не Nvidia 2 ч.
DDoS нового уровня: Curator нейтрализовала длительную атаку в 2 Тбит/с на платформу онлайн-ставок 3 ч.
Обновлённый Xiaomi SU7 оказался популярнее предшественника — электромобиль уже собрал более 30 000 заказов 3 ч.
Сначала Kyber, потом Feynman: NVIDIA раскрыла планы по выпуску ИИ-решений до 2028 года 4 ч.
Мини-ПК ASUS ExpertCenter PN55 получил чип AMD Ryzen AI 400 с ИИ-производительностью до 91 TOPS 5 ч.
ASRock Industrial выпустила компактную рабочую станцию AI Box-A395 на основе AMD Ryzen AI Max 5 ч.
Выпуск DDR5 стал прибыльнее HBM для всех крупнейших производителей памяти 7 ч.