Сегодня 29 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Microsoft представила VibeVoice — открытый ИИ, превращающий текст в полуторачасовые подкасты

Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.

 Источник изображения: AI

Источник изображения: AI

Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.

В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.

На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.

Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Lenovo купила разработчика, чей BIOS установлен в миллионы ПК по всему миру 11 ч.
Вампирская ролевая игра The Blood of Dawnwalker от ветеранов CD Projekt Red вышла из тени — 13 минут геймплея, дата релиза и предзаказ в России 11 ч.
ИИ заполоняет интернет: 35 % появившихся за последние годы сайтов были созданы нейросетями 12 ч.
Nvidia выпустила драйвер с поддержкой новой версии мобильной GeForce RTX 5070 12 ч.
Nacon закроет студию Spiders — разработчиков Greedfall и Steelrising никто не захотел купить 12 ч.
Игроки не оценили S&box — духовный наследник Garry’s Mod собирает в Steam «смешанные» отзывы 13 ч.
Режиссёр Resident Evil 2 спустя почти 30 лет раскрыл секрет происхождения имени Леона Кеннеди 14 ч.
Google «Play Маркет» начнёт помечать приложения, оптимизированные для больших экранов 14 ч.
Минцифры РФ прорабатывает введение платы за VPN-трафик 15 ч.
NEC с помощью Anthropic создаст крупнейшую в Японии команду специалистов в области ИИ, хотя сами японцы скептически относятся к ИИ 16 ч.
Власти США заблокировали поставки оборудования для производства чипов в адрес китайской Hua Hong 2 ч.
Новая статья: Обзор Infinix NOTE 60: нестандартный подход к смартфону среднего класса 6 ч.
Tenstorrent представила ИИ-серверы Galaxy Blackhole для быстрой генерации токенов и без дезагрегации 6 ч.
Новая статья: Обзор DIGMA DiCam 970: экшен-камера с очень богатой комплектацией для новичка 7 ч.
Corsair выпустила кабель питания для видеокарт ThermalProtect 12V-2×6 со встроенным датчиком температуры 8 ч.
В Китае стартовали испытания мощнейшего мобильного атомного реактора на грузовом автомобиле 10 ч.
Sapphire выпустила «беспроводные» видеокарты Nitro+ Radeon RX 9070 XT PhantomLink на мировой рынок 10 ч.
Alibaba выпустила «виртуальных сотрудников» ля малого бизнеса — ИИ-агенты займутся торговлей 11 ч.
Анонсирован игровой смартфон OnePlus Ace 6 Ultra с Dimensity 9500, батареей на 8600 мА·ч и геймпадом 12 ч.
Автопилот Super Cruise от GM преодолел 1 миллиард миль — на это ушло 9 лет 12 ч.