Сегодня 06 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Microsoft представила VibeVoice — открытый ИИ, превращающий текст в полуторачасовые подкасты

Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.

 Источник изображения: AI

Источник изображения: AI

Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.

В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.

На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.

Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Запущена платформа OpenAI Frontier, позволяющая корпоративным пользователям управлять ИИ-агентами 4 ч.
Облачному игровому сервису GeForce Now исполнилось шесть лет, но на деле он куда старше 8 ч.
«Поэзия от мира пошаговых тактик»: научно-фантастическая стратегия Menace стартовала в раннем доступе Steam с «очень положительными» отзывами 9 ч.
Новый трейлер раскрыл дату выхода научно-фантастического приключения Planet of Lana 2: Children of the Leaf — демоверсия на подходе 11 ч.
Internet Archive взялся лечить интернет от «гниения ссылок» 12 ч.
«То есть Concord вас ничему не научила?»: Sony анонсировала кооперативный боевик Horizon Hunters Gathering, и фанаты в недоумении 13 ч.
The Elder Scrolls IV: Oblivion Remastered выйдет на Nintendo Switch 2, но фанаты радоваться не спешат 14 ч.
Дуров: Telegram ни разу не передал данные из переписок — и никогда этого не сделает 14 ч.
Bethesda подтвердила даты выхода Fallout 4: Anniversary Edition и Indiana Jones and the Great Circle на Nintendo Switch 2 14 ч.
Российский банк впервые начал выдавать кредиты под залог биткоинов 15 ч.
В прошлом году рынок смартфонов вырос на 2 % до 1,25 млрд штук, по данным Omdia 18 мин.
Глава Apple Тим Кук заявил, что ИИ позволит создать новые типы устройств 59 мин.
Новая статья: Квантовая коррекция: гонка за экспонентой 8 ч.
Вложимся в ИИ, а там посмотрим: Alphabet удвоит капзатраты в 2026 году на фоне полуторакратного роста выручки Google Cloud 10 ч.
Образцовая поддержка: Noctua «омолодила» полмиллиона кулеров — даже 17-летняя модель получила крепление под AM5 10 ч.
Топливо с «запахом жареной картошки»: в России успешно испытали авиационный SAF из отработанного растительного масла 11 ч.
ASRock начала проверки после новых поломок Ryzen 9000, но не объяснила, что делать пользователям 12 ч.
MSI усилила защиту RTX 5000 и RX 9000 от плавления разъёма — Afterburner получит функцию GPU Safeguard+ 12 ч.
Starlink стал золотой жилой SpaceX и скоро расширится — от спутниковых ИИ-гаджетов до контроля орбиты 14 ч.
Оперативная память и SSD подорожают почти вдвое в текущем квартале — как для ПК, так и для серверов 14 ч.