Сегодня 04 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Представлен ИИ-генератор музыки Stable Audio, который творит по текстовым описаниям

Stability AI, разработавшая технологию искусственного интеллекта Stable Diffusion для преобразования текста в изображение, объявила о публичном релизе нейросети Stable Audio для генерации коротких аудиоклипов на основе текстовых описаний. Stable Audio базируется на тех же основных методах работы ИИ, которые используются Stable Diffusion при создании изображений.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Stability AI наиболее известен своей работой с изображениями, но теперь мы запускаем наш первый продукт для создания музыки и аудио, который называется Stable Audio, — рассказал вице-президент по звуку в Stability AI Эд Ньютон-Рекс (Ed Newton-Rex). — Идея очень проста: вы описываете музыку или аудио, которые хотите услышать, в тексте, и наша система генерирует их для вас».

Эд не новичок в мире компьютерной музыки: в 2011 году он создал стартап Jukedeck, который в 2019 был куплен TikTok. Однако технология, лежащая в основе Stable Audio, уходит корнями не в Jukedeck, а во внутреннюю исследовательскую студию Stability AI по созданию музыки под названием Harmonai, созданную Заком Эвансом (Zach Evans). Эванс объяснил, что текстовая модель использует технику, известную как предварительная подготовка аудиоконтрастного языка (CLAP). Модель Stable Audio имеет около 1,2 миллиарда параметров, что примерно соответствует исходной версии Stable Diffusion для генерации изображений.

Возможность генерировать базовые звуковые дорожки с помощью технологии не является чем-то новым. В прошлом использовался метод так называемой символьной генерации, которая обычно используется при работе с форматом MIDI (цифровой интерфейс музыкальных инструментов). Генеративные возможности ИИ Stable Audio позволяют пользователям создавать новую музыку, выходящую за рамки повторяющихся последовательностей нот, характерных для MIDI и символьной генерации.

 Источник изображения: Atomic Heart

Источник изображения: Atomic Heart

Stable Audio работает напрямую с необработанными аудиосэмплами для обеспечения более высокого качества вывода. Модель обучалась на более чем 800 000 фрагментах лицензионной музыки из аудиотеки AudioSparks. «Одна из самых сложных задач при создании текстовых моделей — получение аудиоданных, которые не только являются высококачественным звуком, но и имеют соответствующие метаданные» — пояснил Эванс.

Одна из распространённых задач, которые пользователи ставят перед моделями генерации изображений — стилизация под конкретного художника. Однако в случае Stable Audio пользователи не смогут обратиться к ИИ с подобным запросом — по мнению создателей Stable Audio, большинство музыкантов скорее захотят проявить больше творчества.

Модель Stable Audio будет доступна как бесплатно, так и по тарифному плану Pro за $12 в месяц. Бесплатная версия позволяет создавать 20 треков в месяц продолжительностью до 20 секунд, а версия Pro увеличивает число треков до 500, а время их звучания до 90 секунд. Ещё последняя позволяет коммерческое использование произведений. В рамках запуска Stable Audio Stability AI также выпустит руководство по текстовым подсказкам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Создатель расширения подал в суд на Meta, чтобы получить право отключить ленту новостей 10 мин.
Hisense представила телевизор CanvasTV — аналог Samsung The Frame, но намного дешевле 14 мин.
Новая статья: Indika — во Царствии твоем меня помяни. Рецензия 57 мин.
«Единственный ремастер Oblivion, в который я буду играть»: новая демонстрация Skyblivion привела фанатов в восторг 2 ч.
Никакого PvP, офлайн-режим и неутомимый T-800: новые подробности Terminator: Survivors 4 ч.
Разработчики «Смуты» опубликовали план обновлений — улучшение основных механик и дополнение в жанре политического триллера 5 ч.
Microsoft объявила кибербезопасность абсолютным приоритетом — сработала серия хакерских атак 5 ч.
Новая платформа DevX Platform будет применяться при разработке всех ключевых продуктов МТС 5 ч.
Valve выпустила Proton 9.0 для запуска ПК-игр на Linux — улучшена работа с видеокартами Nvidia и многоядерными CPU 5 ч.
Microsoft вернула в браузер Edge измеритель скорости интернет-соединения 6 ч.
Ученые создали светофильтр на 2D-полупроводнике, который прокачал недорогую камеру и открыл новый путь к оптическим компьютерам 3 ч.
Защищённые смартфоны «Ростеха» AYYA T1 начали собирать в России на предприятии «Ростелекома» 3 ч.
Смартфоны Sony Xperia 1 VI и Xperia 10 VI с олдскульным дизайном показались на изображениях в преддверии анонса 6 ч.
Mauritius Telecom проложит подводный кабель T4 из Африки в Азию — он заменит устаревшую систему SAFE 6 ч.
Microsoft инвестирует $2,2 млрд в облака и ИИ в Малайзии 6 ч.
GitHub удалил более 8500 копий эмулятора Switch от Yuzu по жалобе Nintendo 7 ч.
В июле в продажу поступит электролёт Helix за $190 000, для которого не нужна лицензия пилота 7 ч.
На строительство фабрики Intel в Аризоне привлекут $3,85 млрд через облигации 8 ч.
Китай запустил зонд для доставки грунта с обратной стороны Луны 8 ч.
Впервые в истории к спутнику на орбите подключились по Bluetooth 8 ч.