Сегодня 02 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → seamlessm4t

Meta✴ научила ИИ-модель SeamlessM4T переводить текст и речь быстрее и естественнее

Meta обновила свою ИИ-модель SeamlessM4T, предназначенную для перевода речи и текста. Теперь платформа поддерживает переводы почти на 100 языках, включая русский, в текстовом формате и на 36 — в устной речи. С новой архитектурой решения технологический гигант стремится сделать перевод более естественным и выразительным, что обещает стать прорывом в коммуникациях между людьми и производстве контента.

 Источник изображения: ***

Источник изображения: Meta

Meta построила SeamlessM4T на основе своей архитектуры многофункциональной модели UnitY на базе PyTorch, которая выполняет различные модальные переводы, а также автоматическое распознавание речи. Она использует систему BERT 2.0 для аудиокодирования, разбивая входные данные на составляющие токены для анализа, и HiFi-GAN unit vocoder для генерации голосовых ответов.

Первая из двух новых функций SeamlessM4T называется SeamlessExpressive. Как можно понять из названия, она переносит эмоциональные интонации голоса в переведённую речь. Система учитывает такие составляющие, как тон речи, её громкость, эмоциональный окрас (возбуждение, печаль или шёпот), темп речи и паузы. Всё это делает переводы менее механическими и более живыми. Поддерживаются английский, испанский, немецкий, французский, итальянский и китайский языки.

Вторая функция, SeamlessStreaming, начинает переводить речь, пока говорящий ещё не закончил предложение, что позволяет другим слушателям быстрее услышать перевод. Задержка составляет чуть менее двух секунд. По словам Meta, основной трудностью здесь было различие в структуре предложений разных языков, поэтому был разработан специальный алгоритм, который анализирует неполные аудиофрагменты и решает, достаточно ли контекста для начала генерации перевода или стоит ещё послушать говорящего.

Как и большинство предыдущих разработок Meta в области машинного перевода, будь то Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) или амбициозный проект No Language Left Behind (NLLB), SeamlessM4T находится в открытом доступе на GitHub. «Мы считаем, что SeamlessM4T является важным прорывом в стремлении сообщества ИИ к созданию универсальных многофункциональных систем», — написала команда исследователей.

Развитие компанией Meta ИИ-технологий перевода с различных языков открывает новые перспективы в области межъязыкового общения. Эти инновации могут значительно превзойти существующие решения, такие как инструменты перевода, разработанные компаниями Google и Samsung. Пока нет точной информации о сроках внедрения Meta этих функций, но их потенциальное применение, например, в умных очках Meta, обещает сделать их незаменимыми в повседневной жизни и профессиональной сфере.


window-new
Soft
Hard
Тренды 🔥
Дональд Трамп намерен обсудить сделку с TikTok сегодня 3 ч.
Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен 10 ч.
У Ubisoft пока нет чёткого плана работы новой компании с Tencent — инвесторы и сотрудники нервничают 11 ч.
«Загрузки быстрее, чем в Doom (2016)»: эксперт Digital Foundry остался в восторге от Doom: The Dark Ages 12 ч.
Консоли задержат релиз постапокалиптического стелс-экшена Steel Seed от создателей Close to the Sun — объявлена новая дата выхода 14 ч.
ИИ-модель Llama запустили на ПК из прошлого тысячелетия на базе Windows 98 15 ч.
ChatGPT остаётся самым популярным чат-ботом с ИИ, но у конкурентов аудитория тоже растёт 17 ч.
Google сделает сквозное шифрование в Gmail доступным для всех 17 ч.
Антиутопия на колёсах: новый геймплейный трейлер раскрыл дату выхода приключения Beholder: Conductor про кондуктора легендарного поезда 17 ч.
Путин запретил госорганам и банкам общаться с клиентами через иностранные мессенджеры 17 ч.
Hyundai представила Insteroid — концепт электромобиля в стиле гоночных симуляторов 2 ч.
Amazon возобновила доставку товаров дронами в Техасе и Аризоне после двухмесячного перерыва 2 ч.
UMC открыла в Сингапуре новое передовое предприятие, снижая зависимость от Тайваня 4 ч.
Intel: Panther Lake возьмут всё самое лучше от актуальных Core и ангстремного техпроцесса 18A, но выйдут в 2026 году 6 ч.
Новая статья: Выбираем кулер для процессора Intel LGA1700 до 2 000 рублей 10 ч.
Garmin представила смарт-часы Vivoactive 6 с мониторингом энергии пользователя за $300 12 ч.
Экспериментальный мозговой имплантат на лету превратил мысли пациента в беглую речь 12 ч.
В Калифорнии зарядных станций для электромобилей теперь на 48 % больше, чем бензоколонок 15 ч.
Японская Rapidus к концу апреля запустит опытное производство 2-нм чипов 17 ч.
В Лондоне появится экобезопасный ЦОД AWS для ленточных накопителей 18 ч.