Платформа Reddit подала в суд на компанию Perplexity и трёх поставщиков сервисов веб-скрапинга — SerpApi, Oxylabs и AWMProxy, обвинив их в массовом несанкционированном сборе защищённых данных с сайта социальной сети для обучения искусственного интеллекта (ИИ). В иске утверждается, что Perplexity, разработчик ИИ-поисковика, использует данные, полученные через этих посредников, вместо того чтобы заключить прямое соглашение с Reddit, как это сделали некоторые другие компании, работающие в сфере ИИ.

Источник изображения: Reddit
Согласно иску, как стало известно The Verge, в мае 2024 года Reddit направил Perplexity официальное требование о прекращении скрапинга контента, на что компания заявила, что не использует данные Reddit для обучения своих моделей и соблюдает правила, прописанные в файле robots.txt. Однако вскоре после этого количество цитирований Reddit в ответах Perplexity, по утверждению истца, возросло.
Reddit подчёркивает, что миллионы тематических постов, созданных пользователями, представляет значительную ценность для обучения ИИ и даже заключила соглашения с OpenAI и Google, а также в 2023 году ввела платный API, стремясь получать компенсацию за использование своих данных.
Бен Ли (Ben Lee), главный юридический директор Reddit, заявил, что «компании, занимающиеся разработкой искусственного интеллекта, втянуты в гонку вооружений за качественный контент, созданный людьми, и это давление привело к развитию экономики "отмывания данных" в промышленных масштабах». Он назвал литовского скрапера Oxylabs UAB, ботнет-структуру AWM Proxy и SerpAI, открыто рекламирующие методы обхода защиты, типичными представителями такой незаконной деятельности. По его словам, эти компании (ответчики по делу), не имея прямого доступа к Reddit, маскируют свои скрипты и местоположение, чтобы красть контент через поисковую выдачу Google, а Perplexity сознательно приобретает эти украденные данные, избегая легального сотрудничества.
В свою очередь, Джесси Двайер (Jesse Dwyer), руководитель отдела коммуникаций Perplexity, сообщил изданию The Verge, что компания пока не получала иск, но намерена решительно отстаивать право пользователей свободно и справедливо получать доступ к публичным знаниям. Он подчеркнул, что подход Perplexity остаётся принципиальным и ответственным, а угрозы открытости и общественным интересам компания терпеть не намерена.
Ранее Reddit также подавала в суд на Anthropic по аналогичным основаниям, утверждая, что боты Anthropic получили доступ к платформе Reddit, даже после того как Anthropic заявила, что не будет этого делать.
Источник: