Сегодня 05 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Meta✴ сделала открытой ИИ-модель с поддержкой 4000 языков

Компания Meta выложила в открытый доступ модель искусственного интеллекта Massively Multilingual Speech (MMS), которая распознаёт разговорную речь на 4000 языках и воспроизводит её, то есть преобразует текст в речь более чем на 1100 языках.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Модели распознавания речи и преобразования текста в речь обычно предполагают обучение на нескольких тысяч часов аудиозаписей с текстовой расшифровкой и разметкой. Но задача сильно усложняется для языков, которые в индустриальном мире не используются — для них исходных данных в традиционном формате просто не существует, рассказали в Meta. Поэтому в компании прибегли к нестандартному подходу и обратились к религиозным текстам — Библия и другие основополагающие книги переведены на большое количество языков, и существует множество общедоступных аудиозаписей, на которых эти тексты зачитываются. Обучение модели усложнилось из-за того, что аудиозаписи не имели точной текстовой разметки, но в итоге число поддерживаемых языков превысило 4000.

Авторы проекта подчеркнули, что, несмотря на содержание обучающих материалов, у обученной на этих текстах модели не появилось уклона в сторону религиозного мировоззрения; не возникло и гендерного перекоса, хотя большинство взятых за образец аудиозаписей зачитывали мужчины. Проблему с отсутствием текстовой разметки у аудиозаписей удалось преодолеть за счёт wav2vec 2.0 — ещё одной ИИ-модели Meta, предназначенной для «обучения представлению речи с самоконтролем». В компании предупредили, что результат может быть не идеальным — есть риск, что модель преобразования речи в текст могла неверно интерпретировать некоторые слова и фразы, и в некоторых контекстах такие ошибки порой носят оскорбительный характер. Но на практике, утверждают разработчики, MMS демонстрирует вдвое меньше ошибок, чем существующие аналоги, включая модель OpenAI Whisper, и поддерживает в 11 раз больше языков.

На практике проект откроет носителям редких языков доступ к информации и технологическим продуктам — большинство сервисов современных технологических гигантов ограничено набором в 100 языков, и такое положение вещей в Meta считают неприемлемым.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Не очень хорошо, но очень интересно»: критики вынесли вердикт экшен-хоррору Slitterhead от создателя Silent Hill 6 ч.
«У нас всего один шанс»: Ubisoft объяснила, почему перенос Assassin's Creed Shadows был необходим 8 ч.
Игрок обнаружил в ремейке Silent Hill 2 секретное послание — разработчики боялись, что загадка будет слишком сложной 10 ч.
Baldur’s Gate 3, Stellar Blade, Star Wars Outlaws и многие другие: поддержку PS5 Pro на запуске получат более 50 игр 10 ч.
Евросоюз проверит iPadOS на соответствие требованием антимонопольного законодательства 11 ч.
Windows 11 закрепилась как самая популярная ОС в Steam 13 ч.
«Смута» получила «знаковое» обновление 2.0.0 и крупнейшую скидку с релиза, а на iOS и Android вышла визуальная новелла «Смута: Зов сердца» 16 ч.
iOS 18.2 выйдет раньше — интеграция с ChatGPT и ИИ-генератор эмодзи Genmoji появятся на iPhone уже 2 декабря 17 ч.
Энтузиаст запустил классическую Doom на умном будильнике Alarmo от Nintendo 17 ч.
Project Borealis: Prologue обзавелась страницей в Steam — новые скриншоты демоверсии фанатской Half-Life 3 на Unreal Engine 5 19 ч.