Сегодня 01 июня 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → stable audio

Представлена нейросеть Stable Audio 2.0 для генерации полноценных трёхминутных музыкальных треков с вокалом

Модель ИИ для генерации аудио Stable Audio 2.0 от Stability AI позволяет пользователям загружать свои собственные аудиозаписи, на основе которых ИИ генерирует трёхминутные треки в соответствии с подсказками. По утверждению Stability AI, главное отличие новой версии Stable Audio состоит в создании песен с классической музыкальной структурой: вступлением, развитием и финалом. Тем не менее, эксперты уверены, что на «Грэмми» этим трекам пока рассчитывать не приходится.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Первая версия Stable Audio была выпущена в сентябре 2023 года и предлагала платным пользователям генерацию треков длительностью до 90 секунд, пригодных только для экспериментов. Stable Audio 2.0 генерирует полноценный трёхминутный аудиофайл, что соответствует продолжительности песен для радиовещания. Новая версия Stable Audio полностью бесплатна и доступна как на официальном сайте, так и через API.

Stability AI сообщила, что модель обучалась на данных музыкальной библиотеки AudioSparx из более чем 800 000 композиций, причём артистам была предоставлена возможность запретить использование своего материала для обучения модели. Stable Audio 2.0 позволяет пользователям настраивать проект в широком диапазоне, регулируя степень влияния подсказки и то, какую часть загруженного аудио она будет изменять. Доступно добавление звуковых эффектов.

Исследователи, успевшие поэкспериментировать со Stable Audio 2.0, довольно сдержаны в своих оценках. По мнению одного из них, добавленный генератором вокал похож на звуки, издаваемые китами, другому показалось, что он «случайно вызвал в свой дом потустороннее существо». Эксперты назвали сгенерированные треки «бездушными и странными».

Все загруженные пользователем аудиозаписи не должны нарушать авторских прав. Проблемы с последними стали одной из причин, по которой бывший вице-президент Stability AI Эд Ньютон-Рекс (Ed Newton-Rex) покинул компанию вскоре после запуска Stable Audio. Теперь Stability AI заключила партнёрское соглашение с Audible Magic, чтобы использовать технологию распознавания контента, разработанную компанией, для отслеживания и блокировки попадания на платформу материалов, защищённых авторским правом.

Представлен ИИ-генератор музыки Stable Audio, который творит по текстовым описаниям

Stability AI, разработавшая технологию искусственного интеллекта Stable Diffusion для преобразования текста в изображение, объявила о публичном релизе нейросети Stable Audio для генерации коротких аудиоклипов на основе текстовых описаний. Stable Audio базируется на тех же основных методах работы ИИ, которые используются Stable Diffusion при создании изображений.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Stability AI наиболее известен своей работой с изображениями, но теперь мы запускаем наш первый продукт для создания музыки и аудио, который называется Stable Audio, — рассказал вице-президент по звуку в Stability AI Эд Ньютон-Рекс (Ed Newton-Rex). — Идея очень проста: вы описываете музыку или аудио, которые хотите услышать, в тексте, и наша система генерирует их для вас».

Эд не новичок в мире компьютерной музыки: в 2011 году он создал стартап Jukedeck, который в 2019 был куплен TikTok. Однако технология, лежащая в основе Stable Audio, уходит корнями не в Jukedeck, а во внутреннюю исследовательскую студию Stability AI по созданию музыки под названием Harmonai, созданную Заком Эвансом (Zach Evans). Эванс объяснил, что текстовая модель использует технику, известную как предварительная подготовка аудиоконтрастного языка (CLAP). Модель Stable Audio имеет около 1,2 миллиарда параметров, что примерно соответствует исходной версии Stable Diffusion для генерации изображений.

Возможность генерировать базовые звуковые дорожки с помощью технологии не является чем-то новым. В прошлом использовался метод так называемой символьной генерации, которая обычно используется при работе с форматом MIDI (цифровой интерфейс музыкальных инструментов). Генеративные возможности ИИ Stable Audio позволяют пользователям создавать новую музыку, выходящую за рамки повторяющихся последовательностей нот, характерных для MIDI и символьной генерации.

 Источник изображения: Atomic Heart

Источник изображения: Atomic Heart

Stable Audio работает напрямую с необработанными аудиосэмплами для обеспечения более высокого качества вывода. Модель обучалась на более чем 800 000 фрагментах лицензионной музыки из аудиотеки AudioSparks. «Одна из самых сложных задач при создании текстовых моделей — получение аудиоданных, которые не только являются высококачественным звуком, но и имеют соответствующие метаданные» — пояснил Эванс.

Одна из распространённых задач, которые пользователи ставят перед моделями генерации изображений — стилизация под конкретного художника. Однако в случае Stable Audio пользователи не смогут обратиться к ИИ с подобным запросом — по мнению создателей Stable Audio, большинство музыкантов скорее захотят проявить больше творчества.

Модель Stable Audio будет доступна как бесплатно, так и по тарифному плану Pro за $12 в месяц. Бесплатная версия позволяет создавать 20 треков в месяц продолжительностью до 20 секунд, а версия Pro увеличивает число треков до 500, а время их звучания до 90 секунд. Ещё последняя позволяет коммерческое использование произведений. В рамках запуска Stable Audio Stability AI также выпустит руководство по текстовым подсказкам.


window-new
Soft
Hard
Тренды 🔥
Европол отключил 2000 вредоносных доменов киберпреступников 2 ч.
Число владельцев криптовалют в мире достигло 562 млн — крипта есть у каждого тринадцатого 3 ч.
Лидеры ведущих ИИ-компаний прибыли на секретное заседание Бильдербергского клуба 5 ч.
Владелец Ticketmaster подтвердил утечку данных 560 млн пользователей спустя 11 дней 9 ч.
В Telegram добавили сообщения с анимированными эффектами, глобальные хештеги и другие нововведения 10 ч.
Anthropic позволит создавать персональных помощников на базе ИИ-чат-бота Claude 12 ч.
ElevenLabs запустила ИИ-генератор звуковых эффектов по текстовому описанию 12 ч.
Новая статья: Songs of Conquest — песнь величия. Рецензия 23 ч.
В ранний доступ Steam ворвался олдскульный шутер Selaco на движке классических Doom — с перестрелками и умными врагами в духе F.E.A.R. 31-05 21:58
Warhorse официально подтвердила перевод на русский язык в Kingdom Come: Deliverance 2 31-05 20:43
Boeing отменила пилотируемый полёт космического корабля Starliner к МКС за несколько минут до старта 4 мин.
Привет из 2014-го: Asus выпустила обновлённую GeForce GT 710 EVO с 2 Гбайт GDDR5 2 ч.
Apple выбрала процессоры М2 Ultra и М4 для серверов, на которых будут работать ИИ-функции iPhone 5 ч.
Выставка Computex 2024 откроется 4 июня, но презентации AMD, Intel и Nvidia пройдут раньше 6 ч.
iPhone 5s официально устарел, а iPod touch 6 стал винтажным 6 ч.
Vivo оккупировала значительную часть майского рейтинга производительности AnTuTu 7 ч.
Игровой монитор Xiaomi G Pro 27i на панели Mini LED с 1152 зонами затенения выйдет на мировой рынок 7 ч.
Starlink хочет открыть для пользователей спутниковую сотовую связь уже осенью 9 ч.
Новые спутники Starlink могут уничтожить радиоастрономию на Земле, предупреждают учёные 11 ч.
Корейский профсоюз Samsung объявил забастовку, но на производство и поставки памяти это не повлияет 12 ч.