Сегодня 03 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → new york times

OpenAI случайно удалила потенциальные улики по иску об авторских правах

В конце прошлого года началось судебное разбирательство, в рамках которого The New York Times и другие крупные издатели обвинили OpenAI в том, что компания без разрешения использовала публикуемые ими материалы для обучения своих нейросетей. Теперь же стало известно, что инженеры OpenAI случайно удалили данные, которые потенциально могли стать доказательством вины разработчика ИИ-алгоритмов в нарушении авторских прав.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В сообщении сказано, что юристы новостных изданий потратили более 150 часов на изучение данных, которые OpenAI использует для обучения своих нейросетей. Цель их работы заключалась в том, чтобы найти случаи, когда для обучения ИИ-алгоритмов использовались новостные статьи изданий, защищённые законом об авторском праве. Какую именно информацию удалили инженеры OpenAI, точно неизвестно. Компания признала ошибку и попыталась восстановить данные, но сделать это в полном объёме не удалось. Те же данные, что удалось восстановить, не позволяют определить, что публикации изданий были задействованы при обучении нейросетей. Юристы OpenAI охарактеризовали удаление данных как «сбой», а представители The New York Times заявили, что у них «нет оснований полагать», что это было сделано преднамеренно.

В декабре прошлого года The New York Times обвинила OpenAI и её крупнейшего партнёра в лице Microsoft в том, что они создали свои ИИ-алгоритмы путём «копирования и использования миллионов статей» издания. Компания требует привлечь OpenAI к ответственности за «миллиарды долларов установленных законом и реальных убытков» за якобы копирование статей издания. The New York Times уже потратила более $1 млн на борьбу с OpenAI в суде. В это же время OpenAI успела договориться и заключить соглашение с другими изданиями, такими как Axel Springer, Conde Nast и Vox Media. Это говорит о том, что многие издатели предпочитают сотрудничество, а не судебные разбирательства.

В ответ на обвинения в воровстве контента OpenAI обвинила New York Times во взломе ChatGPT

OpenAI заявила в суде, что New York Times (NYT) «заплатила кому-то за взлом продуктов OpenAI», таких как ChatGPT, чтобы получить доказательства для подачи иска против OpenAI о нарушении авторских прав. OpenAI считает, что более ста примеров, в которых модель GPT-4 генерирует контент Times в качестве выходных данных не отражают обычного использования ChatGPT, а представляют собой «надуманные атаки наёмника», который добивался от чат-бота генерации фальшивого контента NYT.

 Источник изображения: pexels.com

Источник изображения: pexels.com

OpenAI обвинила NYT в «десятках тысяч попыток» получить эти «крайне аномальные результаты», «выявив и воспользовавшись ошибкой», которую сама OpenAI «стремится устранить». NYT якобы организовала эти атаки, чтобы собрать доказательства в поддержку утверждения, что продукты OpenAI ставят под угрозу журналистику, копируя авторские материалы и репортажи и тем самым отбирая аудиторию у NYT.

«Вопреки утверждениям [содержащимся в жалобе NYT], ChatGPT никоим образом не заменяет подписку на The New York Times, — заявила OpenAI в ходатайстве, направленном на отклонение большинства претензий NYT. — В реальном мире люди не используют ChatGPT или любой другой продукт OpenAI для этой цели. И не могут. В обычном мире невозможно использовать ChatGPT для предоставления статей Times по своему желанию».

 Источник изображений: unsplash.com

Источник изображений: unsplash.com

OpenAI отметила, что примеры в иске NYT цитируют не текущие материалы, которые подписчики Times могут прочитать на сайте Times, а гораздо более старые статьи, опубликованные до 2022 года. Это дополнительно ослабляет заявление NYT о том, что ChatGPT можно рассматривать как замену изданию.

«То, что OpenAI ошибочно называет "хакерством", — это просто использование продуктов OpenAI для поиска доказательств воровства и воспроизведения материалов NYT, защищённых авторским правом. И это именно то, что мы нашли. На самом деле масштаб копирования OpenAI гораздо больше, чем сто примеров, изложенных в жалобе», — парировали адвокаты NYT.

Юристы NYT сделали акцент на том, что OpenAI «не оспаривает и не может оспорить того, что они скопировали миллионы работ для создания и поддержки своих коммерческих продуктов без нашего разрешения». Позиция издания заключается в том, что создание новых продуктов не является оправданием для нарушения закона об авторском праве, и это именно то, что OpenAI сделала в беспрецедентных масштабах.

OpenAI заявила, что NYT в течение многих лет с энтузиазмом разрабатывала собственных чат-ботов, не опасаясь нарушения ими авторских прав. OpenAI сообщала об использовании статей NYT для обучения своих моделей ИИ ещё в 2020 году, но NYT обеспокоилась только после резко возросшей популярности ChatGPT в 2023 году. После этого NYT обвинила OpenAI в нарушении авторских прав и потребовала «коммерческих условий», а после нескольких месяцев обсуждений подала многомиллиардный иск.

OpenAI убеждает суд, что ему следует отклонить иски, направленные на защиту прямого авторского права в цифровую эпоху и игнорировать обвинения в незаконном присвоении, которые компания называет «юридически недействительными». У некоторых жалоб истёк срок давности, другие, по утверждению OpenAI, неправильно трактуют добросовестное использование или искажают требования федеральных законов.

Если это ходатайство OpenAI будет удовлетворено, в иске NYT останутся только претензии о косвенном нарушении авторских прав и размывании товарного знака. Но если NYT победит в суде (а вероятность этого не так уж мала), OpenAI, возможно, придётся буквально «стереть» ChatGPT и заново начать обучение моделей.

OpenAI утверждает, что NYT использовала вводящие в заблуждение подсказки, чтобы вынудить ChatGPT раскрыть обучающие данные. The Times якобы просила у чат-бота предоставить вступительный абзац конкретной статьи, а затем запрашивала «следующее предложение». Но даже эта тактика не поможет воссоздать статью целиком, а скорее выведет набор «разрозненных и неупорядоченных цитат». OpenAI считает, что NYT намеренно вводит суд в заблуждение, используя купюры и многоточие, чтобы скрыть порядок, в котором ChatGPT выдавал фрагменты репортажей, что создаёт ложное впечатление, что ChatGPT выводит последовательные и непрерывные копии статей.

OpenAI также отвергла примеры галлюцинаций ИИ предоставленных NYT, где модели ИИ изобретали на первый взгляд реалистичные статьи, которые содержали неверные факты и никогда не публиковались изданием. Поскольку ни одна из ссылок в этих фиктивных статьях не работала, OpenAI считает, что «любой пользователь, получивший такие выходные данные, сразу же распознает в них галлюцинацию».

OpenAI планирует исправить ошибки ИИ, но это будет возможно сделать только в случае победы в суде. OpenAI необходимо убедить суды во многих юрисдикциях в своей теории добросовестного использования текстов, защищённых авторским правом, что имеет решающее значение для развития её моделей ИИ. «Постоянная задача разработки ИИ — свести к минимуму и в конечном итоге устранить галлюцинации, в том числе за счёт использования более полных наборов обучающих данных для улучшения точности моделей», — заявили в OpenAI.

Адвокаты NYT полагают, что для OpenAI «незаконное копирование и дезинформация являются основными особенностями их продуктов, а не результатом маргинального поведения». По их словам, OpenAI «отслеживает запросы и результаты пользователей, что особенно удивительно, учитывая, что они утверждали, что не делают этого. Мы с нетерпением ждём возможности изучить эту проблему».

Разработчики больших языковых моделей всё чаще прибегают к лицензированию вместо обучения на общедоступных данных, чтобы избежать возможных обвинений в нарушении авторских прав. «Разработка технологий в соответствии с установленными законами об авторском праве является общеотраслевым приоритетом, — считает ведущий советник NYT Ян Кросби (Ian Crosby). — Решение OpenAI и других разработчиков генеративного ИИ заключать сделки с издателями новостей только подтверждает, что они знают, что их несанкционированное использование работ, защищённых авторским правом, далеко не справедливо».


window-new
Soft
Hard
Тренды 🔥
«Яндекс» представил «Нейроэксперта» — ИИ, который соберёт базу знаний по ссылкам и файлам пользователя 33 мин.
«Хуже моего самого страшного кошмара»: утечка геймплея с тестирования новой The Sims ужаснула фанатов 46 мин.
Самые полные издания Borderlands 3 и Diablo III добавят в Game Pass, а лучшая игра 2024 года по версии 3DNews подписку скоро покинет 12 ч.
«Эпический» сериал Netflix по Assassin’s Creed впервые за несколько лет подал признаки жизни 13 ч.
Спустя 10 лет после релиза Enter the Gungeon получит «крупнокалиберный сиквел» — первый трейлер и подробности Enter the Gungeon 2 15 ч.
Роскомнадзор порекомендовал отказаться от использования решения Cloudflare, нарушающего законы РФ 15 ч.
«Наш контент бесплатный, а инфраструктура — нет»: ИИ-боты разоряют «Википедию» 16 ч.
Nintendo поднимет цены на игры раньше Take-Two с GTA VI — Mario Kart World для Switch 2 будет стоить $80 в «цифре» и $90 в рознице 16 ч.
Роскомнадзор наделил себя правом собирать IP-адреса россиян 17 ч.
«Торт не был ложью!»: Nintendo подтвердила релиз Hollow Knight: Silksong в 2025 году и показала 5 секунд геймплея 17 ч.