Microsoft AI представила три собственные ИИ-модели для генерации текста, голоса и изображений
Читать в полной версииИсследовательское подразделение Microsoft AI представило три новые модели искусственного интеллекта (ИИ), способные генерировать текст, голос и изображения. В конкурентной борьбе с ведущими технологическими ИИ-лабораториями компания решила усилить свои позиции сделав ставку на собственную мультимодальную инфраструктуру.
Источник изображения: xAI
Модель MAI-Transcribe-1 переводит речь на 25 языках в текст, опережая по скорости сервис Azure Fast в 2,5 раза. Вторая модель MAI-Voice-1 создаёт минутную аудиодорожку за одну секунду и поддерживает настройку голосов. MAI-Image-2 отвечает за генерацию визуального контента по текстовому описанию.
По сообщению TechCrunch, над проектом работала команда MAI Superintelligence, занимающаяся фундаментальными исследованиями в области продвинутых ИИ-систем, которую в ноябре 2025 года возглавил исполнительный директор подразделения Мустафа Сулейман (Mustafa Suleyman).
В текущем проекте разработчики сделали упор на снижение стоимости вычислений по сравнению с аналогами от Google и OpenAI. Тарификация расшифровки текста начинается от $0,36 в час, синтез речи оценивается в $22 за 1 миллион символов, а работа с изображениями обойдётся в $5 за 1 миллион входных токенов и $33 за генерацию 1 миллиона выходных токенов. Все модели уже развёрнуты на платформе Microsoft Foundry, а модели транскрипции и синтеза речи также доступны в MAI Playground.
Несмотря на активный выпуск собственных разработок, Сулейман в интервью VentureBeat подтвердил приверженность партнёрству с OpenAI, в которую Microsoft уже инвестировала более $13 млрд. Корпорация продолжит использовать модели OpenAI в своих продуктах в рамках многолетнего контракта, применяя ту же стратегию диверсификации, что и при работе с микрочипами.