Сегодня 22 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Meta✴ сделала открытой ИИ-модель с поддержкой 4000 языков

Компания Meta выложила в открытый доступ модель искусственного интеллекта Massively Multilingual Speech (MMS), которая распознаёт разговорную речь на 4000 языках и воспроизводит её, то есть преобразует текст в речь более чем на 1100 языках.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Модели распознавания речи и преобразования текста в речь обычно предполагают обучение на нескольких тысяч часов аудиозаписей с текстовой расшифровкой и разметкой. Но задача сильно усложняется для языков, которые в индустриальном мире не используются — для них исходных данных в традиционном формате просто не существует, рассказали в Meta. Поэтому в компании прибегли к нестандартному подходу и обратились к религиозным текстам — Библия и другие основополагающие книги переведены на большое количество языков, и существует множество общедоступных аудиозаписей, на которых эти тексты зачитываются. Обучение модели усложнилось из-за того, что аудиозаписи не имели точной текстовой разметки, но в итоге число поддерживаемых языков превысило 4000.

Авторы проекта подчеркнули, что, несмотря на содержание обучающих материалов, у обученной на этих текстах модели не появилось уклона в сторону религиозного мировоззрения; не возникло и гендерного перекоса, хотя большинство взятых за образец аудиозаписей зачитывали мужчины. Проблему с отсутствием текстовой разметки у аудиозаписей удалось преодолеть за счёт wav2vec 2.0 — ещё одной ИИ-модели Meta, предназначенной для «обучения представлению речи с самоконтролем». В компании предупредили, что результат может быть не идеальным — есть риск, что модель преобразования речи в текст могла неверно интерпретировать некоторые слова и фразы, и в некоторых контекстах такие ошибки порой носят оскорбительный характер. Но на практике, утверждают разработчики, MMS демонстрирует вдвое меньше ошибок, чем существующие аналоги, включая модель OpenAI Whisper, и поддерживает в 11 раз больше языков.

На практике проект откроет носителям редких языков доступ к информации и технологическим продуктам — большинство сервисов современных технологических гигантов ограничено набором в 100 языков, и такое положение вещей в Meta считают неприемлемым.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google против разделения: это ударит по потребителям и навредит США в «глобальной гонке с Китаем» 33 мин.
Режиссёр «Трансформеров» Майкл Бэй снимет экранизацию классической серии гоночных аркад OutRun от Sega — первые детали 2 ч.
Туманные перспективы: игроков начали приглашать на «бету» Silent Hill f, но это обман 3 ч.
Dr.Web отмечает 33 года: скидка 20 % на Dr.Web Security Space в честь дня рождения легендарного антивируса 3 ч.
Исследование Honor: люди всё чаще прибегают к помощи ИИ, но скрывают это 13 ч.
В Steam начался фестиваль передвижения ящиков — со скидками на головоломки, в которых игрок является «главной движущей силой» 14 ч.
Московский суд оштрафовал Telegram на 4 млн рублей за неудаление запрещённой информации 14 ч.
Опубликовано 25 минут геймплея футуристического шутера La Quimera от бывших разработчиков Metro — игру сравнивают с Killzone и Crysis 14 ч.
«К2Тех» и «К2 Кибербезопасность» анонсировали услугу по защите от вирусов-шифровальщиков 15 ч.
Arenadata приобрела у Orion soft СУБД Proxima DB и переименовала её в Arenadata Prosperity (ADP) 15 ч.
Amazon снова объявила готовности к запуску перовой партии интернет-спутников Project Kuiper 3 мин.
«Сигналтек» представила российский сервер SignalEdge на базе Intel Xeon Emerald Rapids 2 ч.
Анонсирован смартфон Honor X60 GT со старым флагманским Snapdragon и батареей на 6300 мА·ч по цене от $246 2 ч.
Зонд NASA «Люси» прислал первые снимки похожего на арахис астероида Дональдджохансон 2 ч.
Oukitel покажет на выставке «Связь-2025» защищённые смартфоны WP100 Titan, WP200 Pro, WP300 и другие новинки 2 ч.
YADRO обновила объектную СХД TATLIN.OBJECT: PATCH, Lifecycle configuration и 2FA 3 ч.
TSMC признала бесполезность санкций США — Китай получает передовые чипы обходными путями 3 ч.
Самим мало: идея передачи энергии ИБП дата-центров обратно в электросети хороша, но делать ставку на это не стоит 4 ч.
Google настаивает на скорейшем переходе к 448G SerDes и готова отказаться от OSFP ради дальнейшего масштабирования ИИ-кластеров 4 ч.
Представлен планшет Vivo Pad5 Pro — экран 3,1K, чип Dimensity 9400 и батарея на 12050 мА·ч за $410 6 ч.