Сегодня 22 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → elevenlabs

ElevenLabs запустила ИИ-генератор звуковых эффектов по текстовому описанию

ElevenLabs представила AI Sound Effects, инструмент на базе генеративного ИИ, способный по текстовому запросу генерировать различные звуковые эффекты. По словам ElevenLabs, при обучении ИИ-модели и создании библиотек она сотрудничала с медиаплатформой Shutterstock. Последняя предоставила лицензии на использование материалов из библиотеки контента многим компаниям ИИ-индустрии, включая OpenAI, Meta и Google.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

ElevenLabs уже предлагает пользователям созданные с помощью ИИ версии человеческих голосов для озвучивания текстов и исполнения музыки. А новый инструмент поможет создавать звуковые эффекты для подкастов, фильмов или игр, включая взрывы, плеск воды и т.д. Сообщается, что AI Sound Effects может генерировать звуковые эффекты продолжительностью до 22 секунд на основе подсказок пользователя. Их можно комбинировать с голосовой и музыкальной платформой компании. Сервис предоставляет пользователям как минимум четыре варианта загружаемых аудиоклипов.

Sound Effects предоставляется бесплатно и на коммерческой основе. При бесплатном доступе пользователю устанавливается лимит в 10 000 символов, и он должен ссылаться при публикации клипа на ElevenLabs, добавив в заголовок elevenlabs.io. При платном доступе клиенты смогут использовать сгенерированные аудиоклипы как угодно, получив коммерческую лицензию.

В случае создания звуковых эффектов пользователю будет взиматься 40 символов за секунду аудио, если он сам установит продолжительность аудиоклипа. При продолжительности звукового эффекта по умолчанию за каждый запрос будет взиматься плата в размере 200 символов.

На рынке уже есть библиотеки с клипами со звуковыми эффектами для нужд авторов, режиссёров и разработчиков видеоигр. Но их тарифы зачастую очень высоки, и нередко возникают проблемы с подбором нужного типа звука. ElevenLabs сообщила в блоге, что разработала Sound Effects «для быстрого, доступного и масштабного создания насыщенных и захватывающих звуковых ландшафтов».

Похожие решения уже предлагают другие ИИ-разработчики. В прошлом году Stability AI выпустила Stable Audio для создания аудиоклипов с музыкальными треками и звуковыми эффектами, а ИИ-модели Meta AudioCraft генерируют естественный звук, например, фоновый шум, такой как ветер или движение транспорта.

ElevenLabs обучила ИИ создавать звуковые эффекты для видео

На минувшей неделе OpenAI представила модель искусственного интеллекта Sora, обученную генерировать реалистичные видеоролики по текстовому описанию. Стартап ElevenLabs предложил собственное решение Sound Effects для наложения звуковых эффектов на такие ролики.

 Источник изображения: youtube.com/@elevenlabsio

Источник изображения: youtube.com/@elevenlabsio

Компанию ElevenLabs основали в 2022 году бывший инженер Google по машинному обучению Пётр Дабковски (Piotr Dabkowski) и бывший специалист Palantir по стратегии внедрения Мати Станишевски (Mati Staniszewski). Компания выпустила модель по преобразованию текста в речь и дублированного перевода на 20 языков с сохранением оригинального тона и тембра голоса.

Новый проект ElevenLabs получил название Sound Effects — он предназначается для создания звуковых эффектов для лишённых звука видеороликов; звук генерируется по текстовому описанию. Работу очередной ИИ-модели компания продемонстрировала на примере роликов, созданных нейросетью OpenAI Sora. Для этого использовались простые описания вроде «шум волн», «звон металла», «чириканье птиц» и «двигатель гоночной машины».

ElevenLabs не раскрыла технических подробностей, касающихся работы ИИ-системы, но результаты работы новой модели вполне убедительны — фоновые звуки получились реалистичными: городской шум, шаги на оживлённой улице, сигналы человекоподобного робота и закадровый текст, который как будто читает голливудский актёр. Компании ещё предстоит рассказать, как она планирует защитить свой проект от попыток недобросовестного использования — ElevenLabs Sound Effects может заинтересовать мошенников.

ИИ научили клонировать любые голоса для озвучки текста — в Сети тут же появились непристойные дипфейки с голосами знаменитостей

Несколько дней назад стартап ElevenLabs представил бета-версию платформы для создания синтетических голосов-клонов реальных людей для озвучивания текстов. Буквально через несколько дней в Сети появились дипфейки голосов знаменитостей, озвучивающих крайне сомнительные тексты. По словам компании, отмечено «увеличивающееся число случаев злоупотребления клонированием голосов» — компания уже работает над решением проблемы с помощью введения дополнительных мер защиты.

 Источник изображения: Kelly Sikkema/unsplash.com

Источник изображения: Kelly Sikkema/unsplash.com

Что имелось в виду под злоупотреблением, в компании не уточнили, но уже известно, что на интернет-форумах появились аудиозаписи с голосами знаменитостей, содержащие высказывания неприемлемого содержания.

Пока неизвестно, все ли материалы созданы с использованием технологии ElevenLabs, но значительная коллекция голосовых файлов содержит ссылку именно на платформу компании. Впрочем, ничего удивительно в этом нет, поскольку возникновение общедоступных систем машинного обучения привело к появлению многочисленных дипфейков различного рода.

Сейчас ElevenLabs собирает обратную связь для предотвращения злоупотреблений технологией. На данный момент компания не придумала ничего необычного кроме добавления дополнительных мер верификации аккаунтов для обеспечения доступа к клонированию голосов.

В числе идей: ввод платёжной информации или данных удостоверений личности. Дополнительно рассматривается верификация прав на использование голоса, который пользователи намерены клонировать, например, будет предложено загрузить образец с чтением предложенного текста. Наконец, компания рассматривает возможность полностью отказаться от инструмента Voice Lab и заставить проходить верификацию голосов в ручном режиме. Пока же пользователей призвали поделиться идеями с разработчиками сервиса.

Известно, что в первой половине января схожее решение представила Microsoft. Её инструмент VALL-E тоже позволяет преобразовать текст в речь, использовав в качестве образца всего 3 секунды записи голоса любого человека.


window-new
Soft
Hard
Тренды 🔥
Microsoft разрешила OpenAI пользоваться облачными сервисами конкурентов 4 ч.
Microsoft встроила свой браузер Edge во все игры сразу 5 ч.
Хардкорный режим, скачки и три сюжетных дополнения: Warhorse рассказала, как будет поддерживать Kingdom Come: Deliverance 2 после релиза 13 ч.
HPE проводит расследование в связи с заявлением хакеров о взломе её систем 13 ч.
«Мы создали CRPG нашей мечты»: продажи Warhammer 40,000: Rogue Trader превысили миллион копий 14 ч.
Создатели Lineage и Guild Wars отменили MMORPG во вселенной Horizon Zero Dawn и Horizon Forbidden West 14 ч.
Instagram начал переманивать блогеров из TikTok денежными бонусами до $50 тысяч в месяц 15 ч.
Eternal Strands, Starbound, Far Cry New Dawn и ещё шесть игр: Microsoft рассказала о ближайших новинках Game Pass 16 ч.
ИИ превзойдёт человеческий разум в течение двух-трёх лет, уверен глава Anthropic 16 ч.
Keep Driving вышла на финишную прямую — новый трейлер и дата релиза ностальгической RPG о путешествии по стране на своей первой машине 17 ч.
Transcend выпустила SSD серии ETD410T формата U.2 для дата-центров 16 мин.
Владелец TikTok потратит в этом году $12 млрд на ИИ-ускорители от Nvidia и китайских производителей 48 мин.
Samsung вложит в контрактное производство чипов на порядок меньше, чем TSMC 3 ч.
Сегодня Samsung представит смартфоны Galaxy S25, умное кольцо Galaxy Ring 2 и новинки ИИ 3 ч.
Ускорители Ascend не готовы состязаться с чипами NVIDIA в деле обучения ИИ, но за эффективность инференса Huawei будет бороться всеми силами 3 ч.
Meta планирует выпустить умные очки Oakley, часы и наушники с ИИ 5 ч.
Nvidia в третий раз обошла Apple, став самой дорогой компанией в мире 5 ч.
AMD рассказала, какой будет игровая производительность Ryzen 9 9950X3D и 9900X3D 5 ч.
GeForce RTX 5000 Kingpin не будет — легендарный оверклокер рассказал о планах на будущее, в которых есть место не только Nvidia 10 ч.
OpenAI, Oracle и Softbank вложат $100 млрд в ИИ-инфраструктуру США, а в перспективе — до $500 млрд 11 ч.