Сегодня 24 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → stable audio

Представлена нейросеть Stable Audio 2.0 для генерации полноценных трёхминутных музыкальных треков с вокалом

Модель ИИ для генерации аудио Stable Audio 2.0 от Stability AI позволяет пользователям загружать свои собственные аудиозаписи, на основе которых ИИ генерирует трёхминутные треки в соответствии с подсказками. По утверждению Stability AI, главное отличие новой версии Stable Audio состоит в создании песен с классической музыкальной структурой: вступлением, развитием и финалом. Тем не менее, эксперты уверены, что на «Грэмми» этим трекам пока рассчитывать не приходится.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Первая версия Stable Audio была выпущена в сентябре 2023 года и предлагала платным пользователям генерацию треков длительностью до 90 секунд, пригодных только для экспериментов. Stable Audio 2.0 генерирует полноценный трёхминутный аудиофайл, что соответствует продолжительности песен для радиовещания. Новая версия Stable Audio полностью бесплатна и доступна как на официальном сайте, так и через API.

Stability AI сообщила, что модель обучалась на данных музыкальной библиотеки AudioSparx из более чем 800 000 композиций, причём артистам была предоставлена возможность запретить использование своего материала для обучения модели. Stable Audio 2.0 позволяет пользователям настраивать проект в широком диапазоне, регулируя степень влияния подсказки и то, какую часть загруженного аудио она будет изменять. Доступно добавление звуковых эффектов.

Исследователи, успевшие поэкспериментировать со Stable Audio 2.0, довольно сдержаны в своих оценках. По мнению одного из них, добавленный генератором вокал похож на звуки, издаваемые китами, другому показалось, что он «случайно вызвал в свой дом потустороннее существо». Эксперты назвали сгенерированные треки «бездушными и странными».

Все загруженные пользователем аудиозаписи не должны нарушать авторских прав. Проблемы с последними стали одной из причин, по которой бывший вице-президент Stability AI Эд Ньютон-Рекс (Ed Newton-Rex) покинул компанию вскоре после запуска Stable Audio. Теперь Stability AI заключила партнёрское соглашение с Audible Magic, чтобы использовать технологию распознавания контента, разработанную компанией, для отслеживания и блокировки попадания на платформу материалов, защищённых авторским правом.

Представлен ИИ-генератор музыки Stable Audio, который творит по текстовым описаниям

Stability AI, разработавшая технологию искусственного интеллекта Stable Diffusion для преобразования текста в изображение, объявила о публичном релизе нейросети Stable Audio для генерации коротких аудиоклипов на основе текстовых описаний. Stable Audio базируется на тех же основных методах работы ИИ, которые используются Stable Diffusion при создании изображений.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Stability AI наиболее известен своей работой с изображениями, но теперь мы запускаем наш первый продукт для создания музыки и аудио, который называется Stable Audio, — рассказал вице-президент по звуку в Stability AI Эд Ньютон-Рекс (Ed Newton-Rex). — Идея очень проста: вы описываете музыку или аудио, которые хотите услышать, в тексте, и наша система генерирует их для вас».

Эд не новичок в мире компьютерной музыки: в 2011 году он создал стартап Jukedeck, который в 2019 был куплен TikTok. Однако технология, лежащая в основе Stable Audio, уходит корнями не в Jukedeck, а во внутреннюю исследовательскую студию Stability AI по созданию музыки под названием Harmonai, созданную Заком Эвансом (Zach Evans). Эванс объяснил, что текстовая модель использует технику, известную как предварительная подготовка аудиоконтрастного языка (CLAP). Модель Stable Audio имеет около 1,2 миллиарда параметров, что примерно соответствует исходной версии Stable Diffusion для генерации изображений.

Возможность генерировать базовые звуковые дорожки с помощью технологии не является чем-то новым. В прошлом использовался метод так называемой символьной генерации, которая обычно используется при работе с форматом MIDI (цифровой интерфейс музыкальных инструментов). Генеративные возможности ИИ Stable Audio позволяют пользователям создавать новую музыку, выходящую за рамки повторяющихся последовательностей нот, характерных для MIDI и символьной генерации.

 Источник изображения: Atomic Heart

Источник изображения: Atomic Heart

Stable Audio работает напрямую с необработанными аудиосэмплами для обеспечения более высокого качества вывода. Модель обучалась на более чем 800 000 фрагментах лицензионной музыки из аудиотеки AudioSparks. «Одна из самых сложных задач при создании текстовых моделей — получение аудиоданных, которые не только являются высококачественным звуком, но и имеют соответствующие метаданные» — пояснил Эванс.

Одна из распространённых задач, которые пользователи ставят перед моделями генерации изображений — стилизация под конкретного художника. Однако в случае Stable Audio пользователи не смогут обратиться к ИИ с подобным запросом — по мнению создателей Stable Audio, большинство музыкантов скорее захотят проявить больше творчества.

Модель Stable Audio будет доступна как бесплатно, так и по тарифному плану Pro за $12 в месяц. Бесплатная версия позволяет создавать 20 треков в месяц продолжительностью до 20 секунд, а версия Pro увеличивает число треков до 500, а время их звучания до 90 секунд. Ещё последняя позволяет коммерческое использование произведений. В рамках запуска Stable Audio Stability AI также выпустит руководство по текстовым подсказкам.


window-new
Soft
Hard
Тренды 🔥
Заявка на успех: более миллиона человек уже добавили Resident Evil Requiem в список желаемого 5 мин.
Windows 11 позволит перемещать индикаторы громкости и яркости 12 мин.
Провальный запуск MindsEye обернулся для новой студии экс-продюсера GTA массовыми увольнениями 35 мин.
ИИ-поиск Google стал подстраиваться под каждого пользователя, собирая данные о его активности 41 мин.
Nightdive отложила релиз System Shock 2: 25th Anniversary Remaster, но не для ПК 2 ч.
Каждый продвинутый ИИ сам научился врать и манипулировать — даже рассуждая «вслух» 3 ч.
Всего за год отечественный спрос на специалистов по безопасности ИИ вырос в 4 раза 3 ч.
Великобритания заставит Google ослабить контроль над своим поисковиком 4 ч.
GSC Game World подтвердила дату выхода следующего крупного обновления для S.T.A.L.K.E.R. 2: Heart of Chornobyl 4 ч.
Амбициозная ролевая песочница Hytale в духе Minecraft спустя десять лет разработки отменена, а студия будет расформирована 6 ч.
Noctua выпустила передовые 120-мм вентиляторы NF-A12x25 G2 по цене $35 22 мин.
Продажи Ethernet-коммутаторов NVIDIA за год выросли на 760 % благодаря спросу на ИИ 2 ч.
Секретный ИИ-гаджет OpenAI и Джони Айва не будет носимым и выйдет не раньше 2026 года 3 ч.
Роботакси Tesla за два дня работы привлекли внимание американских властей странными манёврами 4 ч.
Lenovo анонсировала новые системы для дата-центров, оптимизированные для ИИ 4 ч.
Samsung подтвердила презентацию Unpacked 9 июля — покажут много новых складных смартфонов 4 ч.
В MIT придумали бустер для CPU и GPU — крошечный дискретный GaN-транзистор «дайлет» 5 ч.
Китай пообещал сотню прорывов в сфере ИИ, сопоставимых с выходом DeepSeek 5 ч.
Samsung заманивает инженеров на американские фабрики огромными зарплатами — в 1,5–2 раза выше, чем у Intel и TSMC 6 ч.
Процессор в составе новейшего ноутбука Huawei MateBook Fold выпускается по прежней 7-нм технологии 8 ч.