На минувшей неделе OpenAI представила модель искусственного интеллекта Sora, обученную генерировать реалистичные видеоролики по текстовому описанию. Стартап ElevenLabs предложил собственное решение Sound Effects для наложения звуковых эффектов на такие ролики.
Компанию ElevenLabs основали в 2022 году бывший инженер Google по машинному обучению Пётр Дабковски (Piotr Dabkowski) и бывший специалист Palantir по стратегии внедрения Мати Станишевски (Mati Staniszewski). Компания выпустила модель по преобразованию текста в речь и дублированного перевода на 20 языков с сохранением оригинального тона и тембра голоса.
Новый проект ElevenLabs получил название Sound Effects — он предназначается для создания звуковых эффектов для лишённых звука видеороликов; звук генерируется по текстовому описанию. Работу очередной ИИ-модели компания продемонстрировала на примере роликов, созданных нейросетью OpenAI Sora. Для этого использовались простые описания вроде «шум волн», «звон металла», «чириканье птиц» и «двигатель гоночной машины».
ElevenLabs не раскрыла технических подробностей, касающихся работы ИИ-системы, но результаты работы новой модели вполне убедительны — фоновые звуки получились реалистичными: городской шум, шаги на оживлённой улице, сигналы человекоподобного робота и закадровый текст, который как будто читает голливудский актёр. Компании ещё предстоит рассказать, как она планирует защитить свой проект от попыток недобросовестного использования — ElevenLabs Sound Effects может заинтересовать мошенников.
Источник: