Технокомпании обучают ИИ на миллионах роликов, скаченных с YouTube, без разрешения их авторов

В массив данных, предназначенных для обучения искусственного интеллекта, попали более 15,8 млн видеороликов с более чем 2 млн каналов YouTube — технологические компании без разрешения пользуются ими в своих проектах, обратил внимание американский журнал The Atlantic.

Источник изображения: Aidin Geranrekab / unsplash.com

Эти видеоролики присутствуют как минимум в 13 наборах данных, которые распространяют разработчики ИИ из технологических компаний, университетов и исследовательских организаций через такие платформы как, например, Hugging Face. В большинстве случаев видео являются анонимными — не указываются ни их названия, ни имена авторов; хотя журналистам издания удалось их идентифицировать.

Для создания генераторов видео с ИИ разработчикам требуются огромное количество роликов, и YouTube представляется стандартным источником материалов для таких целей. Платформа позволяет пользователям платных тарифов загружать видео в приложении, чтобы впоследствии смотреть их в любое время и в любом месте; разработчики же скачивают их в виде файлов и обрабатывают при помощи алгоритмов ИИ, что прямо нарушает условия обслуживания платформы, но её администрация, очевидно, бездействует.

Не все видео на YouTube защищены авторскими правами, некоторые ролики вообще загружаются пользователями, не связанными с правообладателями, но многие действительно защищены. Их несанкционированное копирование или распространение незаконно, и вопрос об их добросовестном использовании для обучения ИИ до сих пор обсуждается в рамках судебных процессов. Некоторые судьи не согласны с позицией технологических компаний, но единого мнения пока не сформировано.

Источник изображения: Rubidium Beach / unsplash.com

Созданные ИИ ролики, например, исторические, демонстрируют всё большее присутствие на YouTube — несмотря на множество неточностей, они уже начали вытеснять проверенный экспертами контент; то же касается музыкальных ремиксов. Проблема выходит далеко за рамки YouTube: многие современные чат-боты работают на базе мультимодальных моделей ИИ, способных в качестве ответов генерировать медиафайлы — вскоре ChatGPT или другая платформа вместо ссылки на видеоинструкцию с YouTube выдаст индивидуальное обучающее видео. Возможно, оно окажется хуже, чем созданное человеком, но будет адаптировано к требованиям пользователя.

Обучающие массивы, в которые входят скачанные с YouTube ролики, используются многими технологическими компаниями, в том числе Microsoft, Meta✴, Amazon, Nvidia, Runway, ByteDance, Snap и Tencent. В Meta✴, Amazon и Nvidia ответили на просьбу журналистов прокомментировать ситуацию и заверили, что уважают создателей контента и считают использование этих данных законным. В Amazon добавили, что сейчас работают над системой, которая позволит генерировать «убедительную, высококачественную рекламу по простым запросам».

У Meta✴ есть сервис Movie Gen, генерирующий видео по текстовым запросам; в Snapchat есть функция AI Video Lenses, позволяющая дополнять пользовательские видео элементами с генеративным ИИ. Эти службы были бы невозможными, если бы владеющие ими компании не обучали ИИ на большом объёме роликов — так и ChatGPT не смог бы писать в духе Шекспира, если бы не «прочитал» его. Значительная часть материала взята с новостных и образовательных каналов; сотни тысяч видео были созданы авторами обычных каналов.

Разработчики ИИ признаются, что одни ролики им интереснее, чем другие. Так, специализирующаяся на разработке генератора видео с ИИ компания Runway в качестве приоритетных исходных материалов в неофициальном порядке перечислила «быстрое движение камеры», «красивые кинематографические пейзажи», «высококачественные фрагменты фильмов» и «сверхкачественные научно-фантастические короткометражки». Создатели обучающих массивов HowTo100M и HD-VILA-100M отдают приоритет видео с высоким количеством просмотров на YouTube; для массива HD-VG-130M отбор видео производит специально обученная ИИ-модель. Ниже приоритет у видео с субтитрами и логотипами каналов — есть риск, что эти элементы попадут и в генерируемые ролики; возможно, владельцам каналов следует обратить на этот факт внимание, если они не хотят увидеть свои работы в обучающих массивах.

Источник изображения: BoliviaInteligente / unsplash.com

При подготовке видео к добавлению в массив разработчики разбивают материал на короткие ролики, отбрасывая, например, моменты смены ракурса. К каждому созданному таким образом клипу добавляется описание на английском языке, чтобы модель научилась сопоставлять слова с движущимися изображениями и впоследствии генерировала видео на основе текстового запроса. Иногда такое аннотирование осуществляют люди, иногда — специальные модели ИИ. На канале TED при помощи ИИ производится дублирование речи выступающих, и даже осуществляется корректировка артикуляции губ для синхронизации со звуковой дорожкой на новом языке.

Активно появляются сервисы и для рядовых пользователей. Facetune позволяет корректировать лица на видеозаписях; Facewow — полностью заменять их; Runway Aleph — менять цвета объектов или превращать солнечную погоду в снежную бурю. Google Gemini превращает фотографии в короткие ролики; Vidnoz AI обещает генерировать реалистичные изображения говорящих людей в любом стиле; Arcads готовит полноценные рекламные ролики с актёрами и закадровым голосом — аналогичные возможности есть в Symphony Creative Studio для TikTok. Доступны также виртуальная примерка одежды, создание собственных компьютерных игр, анимация людей и персонажей мультфильмов.

Из-за ИИ возникают серьёзные конфликты. Жюри фестиваля рекламы «Каннские львы» присудило, а администрация впоследствии отозвала награду ролику, в котором использовался образ американской женщины-политика ДеАндреа Сальвадор (DeAndrea Salvador) — она подала в суд и на создавшую этот ролик компанию, и на его заказчиков. Disney и Universal, а вслед за ними и Warner Brothers подали в суд на создателей генератора изображений Midjourney, которую в иске охарактеризовали как «бездонную яму плагиата». На Meta✴ подали в суд две студии, снимающие фильмы для взрослых — гигант соцсетей скачал и начал раздавать по протоколу BitTorrent более 2000 их видеороликов. Пользователь YouTube Дэвид Миллетт (David Millette) в августе прошлого года подал в суд на Nvidia, обвинив компанию в несправедливом обогащении и недобросовестной конкуренции при обучении ИИ Cosmos, но дело удалось уладить.

Люди зарабатывают на ИИ-контенте. DeepBrain AI платит по $500 за опубликованные на YouTube ИИ-видео, которые наберут 10 000 просмотров, и это не очень высокая планка. Google и Meta✴ делятся с пользователями платформ доходами от рекламы и зачастую поощряют создание контента с помощью ИИ. Появились и «инфоцыгане», готовые научить секретам заработка на созданных ИИ материалах. Техногиганты и сами обучают свои системы ИИ на видео с принадлежащих им платформ: Google взяла не менее 70 млн видео с YouTube, а Meta✴ обучала ИИ на более чем 65 млн роликов из Instagram✴. Не за горами день, когда людям придётся конкурировать с ИИ за создание более качественного контента. А соцсети постепенно лишатся своего изначально социального характера — иронично, что совсем недавно об этом задумался глава OpenAI Сэм Альтман (Sam Altman).