|
Опрос
|
реклама
Быстрый переход
Reddit закрылся от поисковиков и ИИ-ботов, которые не платят за использование контента платформы
25.07.2024 [04:30],
Владимир Фетисов
Социальная сеть Reddit продолжает бороться с веб-ботами, которые бесплатно используют контент платформы для обучения нейросетей. По данным источника, за последние несколько недель администрация Reddit скорректировала файл robot.txt, который сообщает ботам о разрешении или запрете на сканирование разделов сайта, таким образом, что контент сообщества и комментарии пользователей перестали корректно отображаться во многих поисковиках.
Источник изображения: redditinc.com В сообщении сказано, что в настоящее время только система Google корректно отображает результаты поиска последних постов на Reddit. При этом в других поисковиках, таких как Bing или DuckDuckGo, аналогичные запросы обрабатываются некорректно, т.е. либо не находят интересующие пользователей страницы, либо отображают лишь их часть. Вероятно, в случае с Google проблем не наблюдается из-за достигнутых ранее договорённостей, в рамках которых поисковый гигант будет платить Reddit $60 млн в год за использование контента площадки для обучения собственных ИИ-алгоритмов. При этом в Reddit опровергли информацию о том, что сделка с Google каким-то образом повлияла на разрешение разработчиков на использование контента платформы для обучения нейросетей. «Это совершенно не связано с нашим недавним партнёрством с Google. Мы вели переговоры с несколькими поисковыми системами. Мы не смогли договориться со всеми, поскольку некоторые не могут или не хотят давать каких-либо обещаний касательно использования ими контента Reddit, в том числе для обучения искусственного интеллекта», — прокомментировал данный вопрос представитель Reddit. Для такого крупного сайта, как Reddit, блокировка веб-ботов крупных поисковых систем является смелым шагом, но вполне ожидаемым. За последний год администрация сайта стала значительно активнее защищать публикуемый пользователями контент, стремясь открыть новый источник дохода и привлечь инвесторов. Разработчики повысили стоимость использования API Reddit сторонними разработчиками, а также пригрозили Google блокировкой поисковика, если компания не перестанет бесплатно использовать контент платформы для обучения своих нейросетей. Reddit введёт жёсткие меры против сборщиков контента для обучения ИИ
26.06.2024 [18:03],
Павел Котов
Администрация платформы Reddit заявила, что обновит исключения для роботов (файл robots.txt), которые сообщают веб-ботам о разрешении или запрете сканировать сайт и его разделы. Ресурс также примет меры для фактического ограничения доступа некоторым ботам.
Источник изображения: redditinc.com Традиционно файл robots.txt использовался для того, чтобы помочь поисковым системам правильно сканировать сайт. Но с развитием систем искусственного интеллекта появились боты, которые выкачивают контент сайтов целиком для обучения моделей без указания источника этого контента. Поэтому вместе с обновлением файла robots.txt администрация Reddit продолжит ограничивать скорость неизвестных ботов и блокировать их доступ к платформе — меры будут приниматься, если эти системы не будут соблюдать «Политику открытого контента» (Public Content Policy) на сайте. Новый режим работы не должен повлиять на большинство пользователей и добросовестных участников ресурса, включая исследователей и некоммерческие организации вроде Internet Archive, сообщили в администрации Reddit. Меры вводятся лишь для того, чтобы не позволить другим компаниям обучать большие языковые модели ИИ на контенте платформы. Администрация ресурса опубликовала заявление после того, как стало известно, что ИИ-стартап Perplexity занимается сбором контента вопреки директивам robots.txt — гендиректор компании Аравинд Шринивас (Aravind Srinivas) заявил, что эти директивы не являются правовым обязательством. Предстоящие изменения Reddit не затронут партнёров, которые заключили соглашения с платформой: Google и OpenAI обучают свои модели ИИ на контенте ресурса на возмездной основе. В прошлом году Reddit для защиты от неправомерного сбора контента ввела плату за доступ к API, что вызвало массовые протесты среди пользователей. |