Сегодня 17 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → vibevoice

Microsoft представила VibeVoice — открытый ИИ, превращающий текст в полуторачасовые подкасты

Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.

 Источник изображения: AI

Источник изображения: AI

Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.

В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.

На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.

Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face.


window-new
Soft
Hard
Тренды 🔥
Microsoft обратилась к ИИ от Anthropic для Visual Studio Code — OpenAI больше не в почёте 12 мин.
«Базис» выходит на рынок Бразилии 19 мин.
Microsoft хочет запретить перепродажу корпоративных лицензий Office и Windows — дело дошло до суда 2 ч.
Китайский ИИ-оптимизм на взлёте: национальные технокомпании кратно наращивают траты на инфраструктуру 2 ч.
Sony планирует активнее использовать ИИ при создании видеоигр 4 ч.
Ведомства поспорили, каких гаджетов касается требование об установке RuStore и Max — всех или не всех 4 ч.
Сэм Фишер снова в деле: Netflix показала динамичный трейлер анимационного сериала Splinter Cell: Deathwatch 4 ч.
YouTube Live получил крупнейшее обновление: двухформатные эфиры, мини-игры и многое другое 5 ч.
YouTube представил новые ИИ-инструменты для всесторонней оптимизации контента 5 ч.
TikTok в США будет на 80 % американским, но алгоритм останется китайским, и это кое-кому не нравится 5 ч.
Линейка графических планшетов Wacom One пополнилась 14-дюймовой моделью 13 мин.
TCL представила новую технологию подсветки SQD-Mini LED с «супер-квантовыми точками» 16 мин.
IT лидирует по темпам роста среди всех крупных отраслей России — в ней занят 1 млн человек 33 мин.
Австралийцы отожгли лучший в мире суперконденсатор из графена 36 мин.
Звериный оскал дефицита: темпы удорожания DDR4-памяти превысили 5 % в неделю 38 мин.
Keychron представила первую в мире керамическую клавиатуру Q16 HE 8K весом в килограмм 2 ч.
SanDisk нагнетает: дефицит флеш-памяти продлится как минимум до 2026 года, и SSD будут дорожать 3 ч.
Looking Glass анонсировала голографические «гололюминесцентные» дисплеи с ценой от $1500 4 ч.
NVIDIA и партнёры развернут в Великобритании ИИ-фабрики со 120 тыс. ускорителей Blackwell 4 ч.
Собственный ЦОД Stargate и крупнейший в стране ИИ-суперкомпьютер: американские IT-гиганты вложат более $40 млрд в развитие ИИ в Великобритании 4 ч.