Nvidia уличили в незаконном сборе видео длиною «в жизнь человека» для обучения ИИ
Читать в полной версииNvidia массово скачивала видео с YouTube и других платформ для обучения своих ИИ-моделей, игнорируя вопросы авторского права. Компания оправдывает использование чужих видео для обучения ИИ, ссылаясь на «дух закона об авторском праве», но платформы не согласны с таким положением дел.
Согласно внутренним документам и переписке, полученным изданием 404 Media, компания Nvidia собирала видео «длиною в жизнь человека» с различных интернет ресурсов. По словам бывшего сотрудника Nvidia, который пожелал остаться анонимным, работникам было поручено скачивать видео с Netflix и YouTube и других платформ для обучения модели ИИ, предназначенной для генерации трёхмерного мира Omniverse, систем самоуправляемых автомобилей и продуктов будущего «цифрового человека». Проект имеет кодовое название Cosmos.
Сотрудники компании использовали для массового скачивания контента бесплатное программное обеспечение с открытым исходным кодом yt-dlp и виртуальные машины, которые обновляют IP-адреса, чтобы избежать блокировок со стороны YouTube. Задача состояла в ежедневном получении информации, эквивалентной «80 годам жизни».
Электронные письма, которые были просмотрены 404 Media, показывают, что менеджеры проекта обсуждали использование 20-30 виртуальных машин в Amazon Web Services для загрузки такого огромного объёма видеоматериалов в день. Когда же сотрудники поднимали вопросы о законности использования защищённого авторским правом контента, руководство уверяло их, что это решение было одобрено на высшем уровне компании.
В сообщении изданию 404 Media представитель Nvidia заявил, что компания уважает права всех создателей контента и уверена, что её модели и исследовательские усилия «полностью соответствуют букве и духу закона об авторском праве».
«Закон об авторском праве защищает конечный продукт, но не факты, идеи, данные или информацию. Каждый может изучать факты, идеи, данные или информацию из другого источника и использовать их для создания своего собственного продукта. Добросовестное использование также защищает возможность использовать произведение для трансформационной цели, такой как обучение ИИ-модели», — считают в компании.
Однако в YouTube и Netflix подчеркнули, что такое использование их контента нарушает условия обслуживания платформ. Представитель Netflix также сообщил 404 Media, что у них нет соглашения с Nvidia о предоставлении контента, при этом условия использования платформы не допускает веб-скрейпинг (scraping), с помощью которого серверные скрипты в автоматическом режиме производят скачивание.