Сегодня 23 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → seamlessm4t

Meta✴ научила ИИ-модель SeamlessM4T переводить текст и речь быстрее и естественнее

Meta✴ обновила свою ИИ-модель SeamlessM4T, предназначенную для перевода речи и текста. Теперь платформа поддерживает переводы почти на 100 языках, включая русский, в текстовом формате и на 36 — в устной речи. С новой архитектурой решения технологический гигант стремится сделать перевод более естественным и выразительным, что обещает стать прорывом в коммуникациях между людьми и производстве контента.

 Источник изображения: ***

Источник изображения: Meta✴

Meta✴ построила SeamlessM4T на основе своей архитектуры многофункциональной модели UnitY на базе PyTorch, которая выполняет различные модальные переводы, а также автоматическое распознавание речи. Она использует систему BERT 2.0 для аудиокодирования, разбивая входные данные на составляющие токены для анализа, и HiFi-GAN unit vocoder для генерации голосовых ответов.

Первая из двух новых функций SeamlessM4T называется SeamlessExpressive. Как можно понять из названия, она переносит эмоциональные интонации голоса в переведённую речь. Система учитывает такие составляющие, как тон речи, её громкость, эмоциональный окрас (возбуждение, печаль или шёпот), темп речи и паузы. Всё это делает переводы менее механическими и более живыми. Поддерживаются английский, испанский, немецкий, французский, итальянский и китайский языки.

Вторая функция, SeamlessStreaming, начинает переводить речь, пока говорящий ещё не закончил предложение, что позволяет другим слушателям быстрее услышать перевод. Задержка составляет чуть менее двух секунд. По словам Meta✴, основной трудностью здесь было различие в структуре предложений разных языков, поэтому был разработан специальный алгоритм, который анализирует неполные аудиофрагменты и решает, достаточно ли контекста для начала генерации перевода или стоит ещё послушать говорящего.

Как и большинство предыдущих разработок Meta✴ в области машинного перевода, будь то Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) или амбициозный проект No Language Left Behind (NLLB), SeamlessM4T находится в открытом доступе на GitHub. «Мы считаем, что SeamlessM4T является важным прорывом в стремлении сообщества ИИ к созданию универсальных многофункциональных систем», — написала команда исследователей.

Развитие компанией Meta✴ ИИ-технологий перевода с различных языков открывает новые перспективы в области межъязыкового общения. Эти инновации могут значительно превзойти существующие решения, такие как инструменты перевода, разработанные компаниями Google и Samsung. Пока нет точной информации о сроках внедрения Meta✴ этих функций, но их потенциальное применение, например, в умных очках Meta✴, обещает сделать их незаменимыми в повседневной жизни и профессиональной сфере.


window-new
Soft
Hard
Тренды 🔥
SpaceX Falcon 9 слетала в космос 150 раз с начала года — на орбиту выведана очередная партия спутников Starlink 2 ч.
В условиях растущего дефицита поставщики памяти переходят на долгосрочные контракты 4 ч.
По итогам третьего квартала выручка поставщиков полупроводниковых компонентов впервые превысила $200 млрд 5 ч.
Беспилотные такси Waymo смогут расширить территорию обслуживания на юг Калифорнии 5 ч.
Первый пациент Neuralink рассчитывает получить второй имплант, который позволит ему снова ходить и двигаться 6 ч.
Обнаружены кандидаты в самые первые звёзды нашей Вселенной — их там целая галактика 14 ч.
Власти США разглядели угрозу национальной безопасности в ASIC-майнерах Bitmain 21 ч.
ASUS представила модульную ИИ-систему PE3000N на платформе NVIDIA Jetson Thor T5000 22-11 12:26
В Microsoft Azure появились инстансы с Intel Xeon 6 и CXL-памятью 22-11 12:23
Суд намерен устранить монополию Google в онлайн-рекламе пока не поздно, но скорого успеха не ожидает 22-11 12:14