Сегодня 17 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Microsoft представила VibeVoice — открытый ИИ, превращающий текст в полуторачасовые подкасты

Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.

 Источник изображения: AI

Источник изображения: AI

Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.

В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.

На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.

Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Никакого уважения к фанатам»: владельцев Escape from Tarkov возмутила необходимость покупать игру в Steam повторно 2 ч.
Sony планирует активнее использовать ИИ при создании видеоигр 2 ч.
Ведомства поспорили, каких гаджетов касается требование об установке RuStore и Max — всех или не всех 2 ч.
Сэм Фишер снова в деле: Netflix показала динамичный трейлер анимационного сериала Splinter Cell: Deathwatch 2 ч.
YouTube Live получил крупнейшее обновление: двухформатные эфиры, мини-игры и многое другое 3 ч.
YouTube представил новые ИИ-инструменты для всесторонней оптимизации контента 3 ч.
TikTok в США будет на 80 % американским, но алгоритм останется китайским, и это кое-кому не нравится 4 ч.
YouTube захотел стать торговой платформой — ИИ наполнит видеоролики ссылками на товары 4 ч.
Душевное приключение Sopa: Tale of the Stolen Potato отправит в волшебную страну за картошкой для супа бабушки — новый трейлер и дата выхода 4 ч.
Ретросборник Mortal Kombat: Legacy Kollection порадовал игроков региональной ценой — предзаказ доступен в российском Steam 5 ч.
SanDisk нагнетает: дефицит флеш-памяти продлится как минимум до 2026 года, и SSD будут дорожать 2 ч.
Looking Glass анонсировала голографические «гололюминесцентные» дисплеи с ценой от $1500 2 ч.
NVIDIA и партнёры развернут в Великобритании ИИ-фабрики со 120 тыс. ускорителей Blackwell 2 ч.
Собственный ЦОД Stargate и крупнейший в стране ИИ-суперкомпьютер: американские IT-гиганты вложат более $40 млрд в развитие ИИ в Великобритании 2 ч.
Новость из будущего: квантовая компания совершила рекордную закупку добытого на Луне гелия-3 2 ч.
Принудительное импортозамещение: Пекин запретил ByteDance и Alibaba покупать ускорители у Nvidia 2 ч.
Huawei удалось снять офис в калифорнийском кампусе Nvidia, и теперь власти разбираются, как так получилось 3 ч.
Камчатку полностью отключат от интернета на несколько дней 3 ч.
Доставка припасов на МКС под угрозой — у космогрузовика Cygnus XL засбоил двигатель 4 ч.
Google, Microsoft, OpenAI и Nvidia инвестируют более £31 млрд в ИТ-инфраструктуру Великобритании 4 ч.