Сегодня 30 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → текст в звук

Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук, как это делают люди»

Nvidia представила новую экспериментальную генеративную модель ИИ, которую компания описывает как «швейцарский армейский нож для звука». Модель Fugatto (Foundational Generative Audio Transformer Opus 1) использует текстовые подсказки для генерации новых или изменения существующих музыкальных, голосовых и звуковых файлов. В создании модели принимали участие разработчики со всего мира, что усилило «многоакцентные и многоязычные возможности модели».

 Источник изображения: Nvidia

Источник изображения: Nvidia

«Мы хотели создать модель, которая понимает и генерирует звук, как это делают люди», — рассказал участник проекта и менеджер по прикладным исследованиям звука в Nvidia Рафаэль Валле (Rafael Valle). Компания предложила несколько сценариев, в которых модель Fugatto может оказаться востребованной:

  • Музыкальные продюсеры могут быстрого создать прототип песни, которую легко редактировать, пробуя разные стили, голоса и инструменты.
  • Fugatto может использоваться при создании инструментов для изучения языка с выбором наиболее подходящего голоса.
  • Разработчики видеоигр могут использовать её для создания вариаций предварительно записанных ресурсов, чтобы соответствовать изменениям в игре на основе выбора и действий игроков.

Исследователи утверждают, что модель при некоторой дополнительной тонкой настройке также может выполнять задачи, не входившие в её предварительное обучение. Модель может объединять отдельные инструкции, например, генерировать речь с определёнными интонациями и акцентом или звук пения птиц во время грозы. Модель также умеет генерировать изменяющиеся со временем звуки, например, шум приближающегося ливня или удаляющегося поезда.

Fugatto не является первой технологией генеративного ИИ, которая может создавать звуки из текстовых подсказок. Ранее Meta выпустила аналогичную модель ИИ с открытым исходным кодом. Google предлагает ИИ-инструмент собственной разработки для преобразования текста в музыку MusicLM, доступ к которому можно получить через сайт компании AI Test Kitchen.

Nvidia пока не предоставила публичный доступ к Fugatto и воздержалась от комментариев на этот счёт.


window-new
Soft
Hard
Тренды 🔥
Более четырёх дней длилась самая долгая DDoS-атака на российские ресурсы в 2024 году 2 ч.
Microsoft инвестирует $80 млрд в ИИ, но рост её облачного бизнеса замедлился 3 ч.
Основатель Twitter представил открытую платформу Goose для создания ИИ-агентов 9 ч.
Marvel’s Spider-Man 2 получила системные требования за день до релиза на ПК — для максимальной трассировки лучей понадобится RTX 4090 10 ч.
Sony подтвердила февральскую подборку PS Plus и рассказала, когда перестанет раздавать игры для PS4 12 ч.
Windows 11 научилась показывать сообщения и другие данные с iPhone прямо в меню «Пуск» 12 ч.
Привязка аккаунта PSN станет необязательной в играх Sony на ПК, но пока лишь в четырёх 13 ч.
Microsoft исправила проблемы с наушниками и веб-камерами, которые вызвало недавнее обновление Windows 11 13 ч.
DeepSeek пропал из App Store и Google Play в Италии — до этого власти решили выяснить, как сервис обрабатывает персональные данные 14 ч.
Датамайнер раскрыл, когда выйдут перевыпуски классических The Sims и чего от них ждать 16 ч.
Суперкомпьютер Aurora стал доступен исследователям со всего мира 2 мин.
На долю Samsung Galaxy S25 Ultra приходится 60-70 % от всех предзаказов на смартфоны серии 48 мин.
Илон Маск признал, что для работы с полным автопилотом бортовые компьютеры придётся заменить на всех электромобилях, выпущенных до 2023 года 58 мин.
Tesla запустит беспилотные такси в столице Техаса в июне на коммерческой основе 2 ч.
Эпидемия «синих треугольников смерти» поразила смарт-часы Garmin — устройства выходят из строя по всему миру 3 ч.
По итогам квартала Tesla сократила чистую прибыль на 70 %, но готовит более доступные электромобили 4 ч.
Nvidia раскрыла полные спецификации графических чипов GB203 и GB205 видеокарт GeForce RTX 5070 Ti и RTX 5070 9 ч.
TikTok потратит $3,8 млрд на ЦОД и облако в Таиланде 9 ч.
Новая статья: Лучшие ИИ-сервисы по версии 3DNews. Часть 1: ИИ-собеседники, генераторы картинок и видео, поисковики 9 ч.
Radeon RX 7900 XTX обогнала GeForce RTX 4090 в работе с ИИ-моделью DeepSeek R1 10 ч.