Сегодня 29 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → vibevoice

Microsoft представила VibeVoice — открытый ИИ, превращающий текст в полуторачасовые подкасты

Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.

 Источник изображения: AI

Источник изображения: AI

Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.

В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.

На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.

Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face.


window-new
Soft
Hard
Тренды 🔥
Ubuntu 26.10 получит встроенные ИИ-инструменты — все они будут работать локально и отключаться в один клик 15 мин.
Илон Маск выступил в суде против Альтмана и назвал его вором, укравшим благотворительную организацию 2 ч.
Lenovo купила разработчика, чей BIOS установлен в миллионы ПК по всему миру 13 ч.
Вампирская ролевая игра The Blood of Dawnwalker от ветеранов CD Projekt Red вышла из тени — 13 минут геймплея, дата релиза и предзаказ в России 13 ч.
ИИ заполоняет интернет: 35 % появившихся за последние годы сайтов были созданы нейросетями 14 ч.
Nvidia выпустила драйвер с поддержкой новой версии мобильной GeForce RTX 5070 14 ч.
Nacon закроет студию Spiders — разработчиков Greedfall и Steelrising никто не захотел купить 14 ч.
Игроки не оценили S&box — духовный наследник Garry’s Mod собирает в Steam «смешанные» отзывы 15 ч.
Режиссёр Resident Evil 2 спустя почти 30 лет раскрыл секрет происхождения имени Леона Кеннеди 16 ч.
Google «Play Маркет» начнёт помечать приложения, оптимизированные для больших экранов 16 ч.
TSMC избавилась от акций Arm на сумму $231 млн 14 мин.
Framework оценила мобильную GeForce RTX 5070 12GB в $1199 и предупредила о повышении цен на версию с 8 Гбайт памяти 34 мин.
Apple и Google активно интересуются услугами Intel по контрактному производству чипов 40 мин.
Выручка Seagate в прошлом квартале взлетела на 44 % на крыльях ИИ-бума 2 ч.
Власти США заблокировали поставки оборудования для производства чипов в адрес китайской Hua Hong 4 ч.
Новая статья: Обзор Infinix NOTE 60: нестандартный подход к смартфону среднего класса 8 ч.
Tenstorrent представила ИИ-серверы Galaxy Blackhole для быстрой генерации токенов и без дезагрегации 8 ч.
Новая статья: Обзор DIGMA DiCam 970: экшен-камера с очень богатой комплектацией для новичка 9 ч.
Corsair выпустила кабель питания для видеокарт ThermalProtect 12V-2×6 со встроенным датчиком температуры 10 ч.
В Китае стартовали испытания мощнейшего мобильного атомного реактора на грузовом автомобиле 12 ч.