Сегодня 17 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Разработчиков ИИ уличили в сборе данных с сайтов СМИ вопреки прямым запретам

Несколько компаний, занимающихся разработкой систем искусственного интеллекта, игнорируют принятый отраслью веб-стандарт, который позволяет издателям блокировать сбор своего контента с целью его последующего включения в массивы для обучения генеративного ИИ. Об этом сообщает Reuters.

 Источник изображений: Gerd Altmann / pixabay.com

Источник изображений: Gerd Altmann / pixabay.com

Информация о неправомерных действиях разработчиков ИИ в отношении сайтов СМИ появилась в рамках публичного разбирательства ИИ-стартапа Perplexity и ресурса Forbes, при этом компании, предположительно оказавшиеся правонарушителями и пострадавшими, не называются. Деловое издание публично обвинило Perplexity в плагиате материалов своих расследований — в составляемых генеративным ИИ сводках оказываются материалы Forbes без запросов разрешения и ссылок на авторов. Поисковый веб-сканер Perplexity, вероятно, игнорирует директивы, которые указываются издателями в файле robots.txt — распространённый стандарт помогает администраторам сайтов определять, какие разделы разрешено сканировать поисковым роботам.

О проблеме сообщила компания TollBit — стартап, выступающий посредником между испытывающими потребность в обучающих материалах ИИ-компаниями и открытыми для заключения лицензионных соглашений издателями. Perplexity — не единственный нарушитель, который предположительно игнорирует директивы robots.txt, считают в TollBit. Сейчас в базе посредника значатся 50 издателей, и «чем больше журналов издателей мы принимаем, тем больше проявляется эта закономерность».

Протокол robots.txt был создан в середине девяностых годов, чтобы защитить сайты от перегрузок из-за поисковых роботов. Чёткого механизма правового принуждения соблюдать директивы файла не существует, но исторически они соблюдались добровольно. Недавно robots.txt стал основным инструментом, который издатели использовали, чтобы не допустить бесплатного включения их контента в массив данных для генеративного ИИ. Этот контент используется как для обучения ИИ, так и для создания сводок информации на его основе в режиме реального времени.

Некоторые издатели, включая New York Times, пытаются засудить разработчиков ИИ за нарушение авторских прав в связи с использованием материалов для этих целей. Другие подписывают с создателями ИИ лицензионные соглашения. Стороны часто расходятся во мнениях относительно ценности материалов — некоторые разработчики даже утверждают, что не нарушают законов, получая доступ к материалам СМИ бесплатно.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Warhammer 40,000: Space Marine 2 превзошла «даже самые смелые мечты» издателя — на защиту Империума встали 12 миллионов космодесантников 26 мин.
МТС Exolve: как ставка на self-service за год изменила рынок коммуникаций для бизнеса 36 мин.
Российскую криптобиржу Grinex взломали и украли активы на 1 млрд рублей 40 мин.
Надёжный инсайдер подтвердил дату выхода Assassin’s Creed Black Flag Resynced — Ubisoft показала неуловимый ремейк журналистам 2 ч.
ИИ-агент OpenAI Codex получил многие улучшения в новой версии 6 ч.
Нуарный ретрошутер Mouse: P.I. For Hire стартовал в Steam с рейтингом 94 % 12 ч.
Nvidia выпустила драйвер с поддержкой Pragmata, Neverness to Everness и Windrose 15 ч.
Эпичный финал: для Atomic Heart вышло масштабное сюжетное дополнение «Кровь на Хрустале» 15 ч.
Anthropic представила флагманскую ИИ-модель Opus 4.7 — она стала «самостоятельнее» и лучше в сложных задачах 16 ч.
Google с помощью ИИ заблокировала 8,3 млрд рекламных объявлений за 2025 год — на 60 % больше, чем годом ранее 16 ч.
Xiaomi представила телевизоры Redmi TV A Pro 2026 — старшая 75" модель стоит меньше $500 37 мин.
Лояльность к iPhone превысила 96 % — пользователи Android готовы менять бренд почти в четыре раза чаще 40 мин.
Ветеран Apple, который выводил на рынок iPod, Watch и AirPods, уходит из компании после 31 года работы 2 ч.
Смартфон Huawei Mate 80 Pro с продвинутыми камерами и смарт-часы Watch GT Runner 2 для любителей бега поступили в продажу в России 2 ч.
Одноплатный компьютер Orange Pi Zero 3W в формате Raspberry Pi Zero получил чип Allwinner A733 и до 16 Гбайт ОЗУ 2 ч.
Intel наняла руководителя для своего контрактного бизнеса с опытом работы в Samsung 3 ч.
Tesla уже ищет на Тайване инженеров для своего американского мегазавода Terafab по выпуску чипов 3 ч.
OnePlus покинет ключевые рынки и сосредоточится на продажах в Китае 4 ч.
Акции ASML и TSMC упали в цене на фоне превосходной квартальной отчётности 4 ч.
Новая статья: Обзор Dreame X60 Ultra Complete: 4 × 4 в мире роботов-уборщиков 11 ч.