Сегодня 20 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Meta✴ сделала открытой ИИ-модель с поддержкой 4000 языков

Компания Meta выложила в открытый доступ модель искусственного интеллекта Massively Multilingual Speech (MMS), которая распознаёт разговорную речь на 4000 языках и воспроизводит её, то есть преобразует текст в речь более чем на 1100 языках.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Модели распознавания речи и преобразования текста в речь обычно предполагают обучение на нескольких тысяч часов аудиозаписей с текстовой расшифровкой и разметкой. Но задача сильно усложняется для языков, которые в индустриальном мире не используются — для них исходных данных в традиционном формате просто не существует, рассказали в Meta. Поэтому в компании прибегли к нестандартному подходу и обратились к религиозным текстам — Библия и другие основополагающие книги переведены на большое количество языков, и существует множество общедоступных аудиозаписей, на которых эти тексты зачитываются. Обучение модели усложнилось из-за того, что аудиозаписи не имели точной текстовой разметки, но в итоге число поддерживаемых языков превысило 4000.

Авторы проекта подчеркнули, что, несмотря на содержание обучающих материалов, у обученной на этих текстах модели не появилось уклона в сторону религиозного мировоззрения; не возникло и гендерного перекоса, хотя большинство взятых за образец аудиозаписей зачитывали мужчины. Проблему с отсутствием текстовой разметки у аудиозаписей удалось преодолеть за счёт wav2vec 2.0 — ещё одной ИИ-модели Meta, предназначенной для «обучения представлению речи с самоконтролем». В компании предупредили, что результат может быть не идеальным — есть риск, что модель преобразования речи в текст могла неверно интерпретировать некоторые слова и фразы, и в некоторых контекстах такие ошибки порой носят оскорбительный характер. Но на практике, утверждают разработчики, MMS демонстрирует вдвое меньше ошибок, чем существующие аналоги, включая модель OpenAI Whisper, и поддерживает в 11 раз больше языков.

На практике проект откроет носителям редких языков доступ к информации и технологическим продуктам — большинство сервисов современных технологических гигантов ограничено набором в 100 языков, и такое положение вещей в Meta считают неприемлемым.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Schneider Electric ведёт переговоры о покупке Bentley Systems 7 ч.
Новая статья: Atom Bomb Baby: рассказываем, почему Fallout — идеальная экранизация видеоигрового материала, и почему этот сериал не стоит пропускать 8 ч.
Bethesda готовит «несколько очень хороших обновлений» для Starfield, а Fallout 5 не в приоритете 9 ч.
Apple откроет сторонним приложениям доступ к NFC 9 ч.
В Dota 2 стартовало сюжетное событие «Павшая корона» с уникальными наградами, новыми «арканами» и комиксом 10 ч.
Связанные одной шиной: «Лаб СП» и «Фактор-ТС» представили отечественную интеграционную платформу Integration Gears 10 ч.
Paradox отказала Prison Architect 2 в досрочном освобождении — релиз отложили ещё на четыре месяца 12 ч.
Спустя 17 лет после релиза Team Fortress 2 получила поддержку 64 бит — выросла производительность и даже боты пропали 13 ч.
Netflix резко нарастила аудиторию и прибыль, запретив совместное использование аккаунтов 14 ч.
Российские студенты победили в чемпионате мира по программированию ICPC 14 ч.
«Народный» электрический кроссовер Kia EV2 за $14 500 мелькнул на видео 27 мин.
Власти Китая упростили условия привлечения иностранных инвестиций в национальный технологический сектор 60 мин.
Гиперщит с ИИ: Cisco представила систему безопасности Hypershield 9 ч.
Highpoint представила карту расширения на восемь SSD: до 64 Тбайт со скоростью до 56 Гбайт/с 9 ч.
Китайские экспериментальные лунные навигационные спутники прислали фотографии обратной стороны Луны 10 ч.
Налоговая служба Швеции закрыла 18 дата-центров за незаконный майнинг криптовалют 11 ч.
LG выпустила флагманский саундбар S95TR за $1500 с поддержкой Dolby Atmos и настройкой с помощью ИИ 13 ч.
Seagate заявила, что жёсткие диски с HAMR уже не уступают по надёжности традиционным HDD 13 ч.
Corsair представила обновлённые доступные проводные гарнитуры HS35 v2 для геймеров 14 ч.
Tesla отзовёт все проданные электромобили Cybertruck для замены залипающей педали газа 15 ч.