Apple и другие без разрешения обучали ИИ-модели на роликах YouTube

16.07.2024 18:31, Павел Котов

Несколько технологических гигантов, включая Apple, Anthropic, Nvidia и Salesforce, обучали свои модели искусственного интеллекта на видео с YouTube без согласия владеющей платформой компании Google и авторов этих видео, показало журналистское расследование Proof News.

Источник изображения: Gerd Altmann / pixabay.com

Предполагаемым нарушителем авторских прав оказалась некоммерческая организация EleutherAI, которая, по её собственному утверждению, помогает разработчикам в обучении моделей ИИ. Её целевой аудиторией является не технологические гиганты, а небольшие разработчики и учёные. EleutherAI выпустила массив данных Pile, значительная часть которого доступна и открыта для любого желающего в интернете — потребуются лишь ресурсы для их скачивания, хранения и обработки.

В массив данных Pile оказались включены субтитры 173 536 видеороликов YouTube, которые были скачаны с более чем 48 000 каналов — файлы субтитров фактически являются расшифровками видеозаписей, а правила платформы YouTube запрещают скачивать её материалы без разрешения. Тем не менее, Apple, Nvidia и Salesforce — компании с капитализацией в сотни миллиардов и триллионы долларов — сами признавались в своих научных работах, что пользовались Pile при обучении ИИ. Apple, в частности, использовала Pile в обучении представленных в апреле моделей OpenELM, а уже в июне рассказала о новых функциях ИИ, которые появятся на iPhone и Mac.

Если в ходе данного инцидента действительно было допущено нарушение авторского права, то сделала это в первую очередь некоммерческая организация EleutherAI, а технологические гиганты могли оказаться добросовестными пользователями общедоступного набора данных. Данный пример в очередной раз показывает, что сфера обучения ИИ до сих пор недостаточно отлажена с юридической позиции.