Сегодня 21 февраля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Meta✴ выпустила ИИ, который налету переводит текст с русского и ещё ста языков

Meta выпустила модель искусственного интеллекта SeamlessM4T, способную осуществлять перевод со 101 языка. Проект является шагом к созданию универсального переводчика в реальном времени, который сможет обрабатывать устную речь, как только она произносится.

 Источник изображения: Sophia Richards / unsplash.com

Источник изображения: Sophia Richards / unsplash.com

Традиционные модели ИИ для перевода работают по многоэтапной схеме: сначала устная речь превращается в текст, затем осуществляется перевод этого текста на другой язык, после чего текст на новом языке снова превращается в устную речь. Этот метод не всегда достаточно эффективен, поскольку на каждом этапе существует вероятность возникновения ошибок, которые грозят неправильным результатом перевода. Новая модель Meta SeamlessM4T осуществляет перевод напрямую и срабатывает, по словам разработчиков, на 23 % точнее, чем лучшие современные модели. В арсенале Google значится модель AudioPaLM, которая поддерживает 113 языков, но осуществляет перевод только на английский; SeamlessM4T переводит со 101 языка на 36.

Залогом успеха проекта стал процесс параллельного сбора данных: ИИ фиксирует случаи в просканированных данных источников в вебе совпадения звука или видео с субтитрами на другом языке. В результате модель научилась связывать эти звуки на одном языке с соответствующими фрагментами текста на другом. Авторы проекта, однако, признают, что участие человека в переводе остаётся важным: человек способен учитывать культурный контекст и обеспечить передачу смысла высказывания с одного языка на другой. В медицине или юриспруденции машинный перевод должен тщательно проверяться человеком — в противном случае могут возникать недоразумения.

Следует также учесть, что у моделей ИИ могут быть разные объёмы обучающих данных для разных языков: может быть много примеров перевода с греческого на английский, но отсутствовать данные для перевода с суахили на греческий. Чтобы решить эту проблему, разработчики SeamlessM4T предварительно обучали модель на миллионах часов аудиозаписей разговоров на разных языках. Эта подготовка помогла ИИ распознавать общие закономерности языков — в результате упростилась обработка менее распространённых языков, поскольку модель уже располагала основными данными о том, как должна звучать разговорная речь на них.

Система доступна с открытым исходным кодом, что, как надеются разработчики, побудит других развивать её текущие возможности. Некоторые эксперты пока сомневаются в том, насколько SeamlessM4T может быть полезна на практике и указывают, что закрытая модель Google работает значительно быстрее. В Meta же утверждают, что специалисты компании уже создали более свежую версию Seamless, которая по скорости работы не уступает переводчикам-людям.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Московский суд оштрафовал Telegram и YouTube на 80 000 рублей за неудаление персональных данных 42 мин.
Облачная ИИ-платформа Together AI получила на развитие более $300 млн при оценке в $3,3 млрд 2 ч.
Объём рынка средств для защиты данных в России в 2024 году достиг 23 млрд руб. 2 ч.
Приложения для слежки допустили слив личных данных миллионов людей по всему миру 4 ч.
На Sony опять подали в суд из-за слишком высоких цен в PS Store — теперь в Нидерландах 11 ч.
Роскомнадзор разблокировал агрегатор криптообменников BestChange 12 ч.
Инсайдер из Microsoft намекнул на релиз GPT-4.5 на следующей неделе и GPT-5 в мае 12 ч.
Epic Games Store устроил раздачу кооперативного зомби-шутера World War Z: Aftermath, в том числе и для российских игроков 12 ч.
Российская облачная среда для разработки GigaIDE Cloud с ИИ-ассистентом вышла в релиз 14 ч.
Positive Technologies купила долю в белорусской «Вирусблокаде» для создания собственного антивируса 14 ч.
Нужно больше дата-центров: AWS намерена построить по ЦОД в «каждом округе» между Северной Вирджинией и Ричмондом 8 мин.
Полумеры и уловки: как производители ноутбуков саботируют право на ремонт 2 ч.
QNAP представила 10GbE-коммутатор начального уровня QSW-3205-5T 2 ч.
Стартап Figure продемонстрировал, как его человекоподобные роботы справляются с бытовыми делами 3 ч.
Mercedes-Benz уже тестирует электромобиль с твердотельными батареями и запасом хода 1000 км 3 ч.
Бурный рост китайского автопрома обернулся тысячами деградирующих электромобилей 5 ч.
Новая статья: Обзор мини-ПК OSiO BaseLine B51i-017: купил, включил, работает! 11 ч.
Учёные обнаружили, что 30 лет неправильно рассуждали о расширении Вселенной и тёмной энергии 11 ч.
Alibaba собралась «агрессивно» инвестировать в ИИ в течение следующих трёх лет 12 ч.
ASRock представила доступные платы B650M PRO X3D и PRO X3D WiFi, «оптимизированные» для Ryzen X3D 14 ч.