Сегодня 22 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → перевод

Meta✴ выпустила ИИ, который налету переводит текст с русского и ещё ста языков

Meta выпустила модель искусственного интеллекта SeamlessM4T, способную осуществлять перевод со 101 языка. Проект является шагом к созданию универсального переводчика в реальном времени, который сможет обрабатывать устную речь, как только она произносится.

 Источник изображения: Sophia Richards / unsplash.com

Источник изображения: Sophia Richards / unsplash.com

Традиционные модели ИИ для перевода работают по многоэтапной схеме: сначала устная речь превращается в текст, затем осуществляется перевод этого текста на другой язык, после чего текст на новом языке снова превращается в устную речь. Этот метод не всегда достаточно эффективен, поскольку на каждом этапе существует вероятность возникновения ошибок, которые грозят неправильным результатом перевода. Новая модель Meta SeamlessM4T осуществляет перевод напрямую и срабатывает, по словам разработчиков, на 23 % точнее, чем лучшие современные модели. В арсенале Google значится модель AudioPaLM, которая поддерживает 113 языков, но осуществляет перевод только на английский; SeamlessM4T переводит со 101 языка на 36.

Залогом успеха проекта стал процесс параллельного сбора данных: ИИ фиксирует случаи в просканированных данных источников в вебе совпадения звука или видео с субтитрами на другом языке. В результате модель научилась связывать эти звуки на одном языке с соответствующими фрагментами текста на другом. Авторы проекта, однако, признают, что участие человека в переводе остаётся важным: человек способен учитывать культурный контекст и обеспечить передачу смысла высказывания с одного языка на другой. В медицине или юриспруденции машинный перевод должен тщательно проверяться человеком — в противном случае могут возникать недоразумения.

Следует также учесть, что у моделей ИИ могут быть разные объёмы обучающих данных для разных языков: может быть много примеров перевода с греческого на английский, но отсутствовать данные для перевода с суахили на греческий. Чтобы решить эту проблему, разработчики SeamlessM4T предварительно обучали модель на миллионах часов аудиозаписей разговоров на разных языках. Эта подготовка помогла ИИ распознавать общие закономерности языков — в результате упростилась обработка менее распространённых языков, поскольку модель уже располагала основными данными о том, как должна звучать разговорная речь на них.

Система доступна с открытым исходным кодом, что, как надеются разработчики, побудит других развивать её текущие возможности. Некоторые эксперты пока сомневаются в том, насколько SeamlessM4T может быть полезна на практике и указывают, что закрытая модель Google работает значительно быстрее. В Meta же утверждают, что специалисты компании уже создали более свежую версию Seamless, которая по скорости работы не уступает переводчикам-людям.

В iOS-приложениях скоро появится встроенный перевод через Apple Translate

С выходом watchOS 11 на умных часах Apple появится приложение «Перевод». Новые функции также появятся в версиях приложения для iPhone и iPad, которые существуют уже давно. В частности, Apple сделала общедоступным новый API, который позволит разработчикам интегрировать средства перевода в свои приложения.

Apple представила API для перевода на мероприятии WWDC 2024 — он избавит разработчиков от необходимости использовать сторонние платформы для реализации этих функций в своих приложениях. Сторонним приложениям, таким образом, открывается доступ к тем же моделям машинного обучения, что используются в собственном приложении Apple «Перевод», а функция перевода работает в автономном режиме.

Новый API доступен для устройств под управлением iOS 17.4 и более поздних версий, а в SDK iOS 18 появятся и некоторые эксклюзивные функции. В частности, новая версия системы получит возможность переводить строки поодиночке или пакетами, а также выводить результаты перевода в любом пользовательском интерфейсе. Пока Apple iOS 18 доступна в виде предварительной бета-версии для разработчиков. Выпуск общедоступной бета-версии запланирован на июль, а финальная появится осенью.

TikTok запустил ИИ-дубляж и генерируемые цифровые аватары — это пригодится в рекламе

TikTok представила несколько новых инструментов на базе генеративного ИИ, которые призваны помочь организациям и создателям контента расширить свою аудиторию с помощью настраиваемых цифровых аватаров и функций языкового дубляжа. Новые инструменты, добавленные в пакет Symphony, призваны, по словам TikTok, «разрушить языковые барьеры в маркетинге и позволить брендам добавлять человечности в свой контент».

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Новые цифровые аватары Symphony доступны в двух вариантах: стандартном и индивидуальном. Стандартные аватары основаны на лицензированных образах актёрах разного происхождения, национальностей и языков. Они доступны для коммерческого использования.

Пользовательские аватары нацелены на придание сходства с конкретным создателем или представителем бренда. Они способны говорить на нескольких языках, что позволяет аккаунтам, использующим их, охватить иностранную аудиторию. Независимо от используемого аватара, все видео с его участием помечаются значком «Создано ИИ».

Многоязычная поддержка обеспечивается Symphony AI Dubbing — инструментом перевода, который позволяет создателям и маркетологам дублировать свой контент на более чем десять языков и диалектов, включая французский, испанский, португальский, немецкий и корейский. TikTok утверждает, что инструмент автоматически определяет язык видео и способен расшифровывать, переводить и дублировать его на любой язык, выбранный пользователем.

По словам посмотревших демонстрационное видео от TikTok с пользовательским цифровым аватаром, «оно немного странное, но выглядит достаточно естественно и убедительно».

Информация о ценах на новые маркетинговые инструменты TikTok на основе генеративного ИИ пока не опубликована.

Microsoft Edge научился на лету переводить на русский видео с YouTube и других сайтов — есть поддержка и других языков

Браузер Microsoft Edge скоро предложит функцию закадрового перевода и дублирования видео в реальном времени на таких сайтах, как YouTube, LinkedIn, Coursera и т.д. В рамках конференции Build, стартовавшей 21 мая в Сиэтле (США), компания Microsoft объявила, что новая функция, работающая на основе искусственного интеллекта, сможет переводить разговорный контент, предоставляя дубляж и субтитры прямо во время просмотра.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

В настоящее время эта функция поддерживает перевод с испанского на английский, а также перевод с английского на немецкий, хинди, итальянский, русский и испанский. Ожидается, что новая функция Edge на базе ИИ также сделает видео более доступными для слабослышащих или страдающих потерей слуха пользователей, предлагая автоматическое создание субтитров.

Microsoft сообщила, что Edge также будет поддерживать перевод устного контента в реальном времени на новостных сайтах, таких как Reuters, CNBC и Bloomberg. В дальнейшем компания планирует увеличить количество поддерживаемых сайтов, а также расширить возможности Edge по переводу большего количества языков.

Новая функция пополнит набор возможностей Edge на базе ИИ, появившихся у браузера благодаря интеграции с Copilot. В настоящее время Edge поддерживает возможность обобщения содержания видеороликов YouTube, но он пока не обладает способностью генерировать текстовые резюме для каждого видео, поскольку при их создании полагается на транскрипцию видео.

Перевод телефонных разговоров в Samsung Galaxy S24 первоначально будет поддерживать только два языка

Южнокорейская компания Samsung Electronics полна решимости начать внедрение технологий искусственного интеллекта в свои смартфоны, поскольку это позволит выделиться на фоне конкурентов. В готовящемся к анонсу семействе флагманов Galaxy S24 появится функция синхронного перевода речи собеседника с другого языка, реализованная как раз при помощи искусственного интеллекта.

 Источник изображения: Samsung Electronics

Источник изображения: Samsung Electronics

Анонсированная ещё в ноябре уходящего года функция AI Live Translate Call, по данным ресурса Nikkei Asian Review, позволит с минимальной задержкой переводить речь собеседника с другого языка именно за счёт наличия локальных специализированных аппаратных ресурсов, предоставляемых процессорами Samsung собственной разработки. Ранее подобные решения полагались исключительно на отправку данных в облачные системы для обработки, а потому не могли обеспечить необходимой плавности и скорости перевода.

Поясняется, что опирающаяся на систему искусственного интеллекта Samsung Gauss функция перевода первоначально обеспечит поддержку английского и испанского языков, хотя в дальнейшем их перечень будет постоянно расширяться за счёт родного для компании корейского, а также японского и прочих. Что характерно, функция синхронного перевода будет работать даже в том случае, если смартфон собеседника на другом конце линии относится к другой марке и не поддерживает экосистему Samsung. В качестве вспомогательной функции перевод будет дублироваться текстовой строкой на дисплее смартфона. В идеале, данное решение позволит общаться по телефону двум людям, не понимающим языка друг друга.

«Яндекс.Браузер» научился переводить видео с китайского языка

Новая функция представлена «Яндексом» в браузере собственной разработки. Теперь он получил возможность осуществлять перевод и закадровую озвучку видео с китайского языка на русский. Для обучения нейросеть использует огромный массив видео на китайском языке, анализируя полученные данные.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Перевод осуществляется в несколько этапов. При этом нейросеть учитывает тон и контекст речи в видеопотоке. В компании подчеркнули, что ИИ способен различать четыре тона — данные фонетические особенности произношения способны значительно менять смысл почти любого высказывания в китайском языке. Кроме того, система «Яндекса» различает 6,5 тыс. иероглифов.

Как сообщают «Ведомости», для обучения ИИ компания использовала 100 тыс. видеоматериалов с субтитрами на севернокитайском языке, наиболее распространённом на территории Китая.

Для того, чтобы зритель мог воспользоваться переводом и озвучкой с китайского на русский язык, необходимо нажать кнопку «Перевести видео» в «Яндекс.Браузере». Сообщается, что технологией уже можно воспользоваться на YouTube.

Ранее сообщалось о том, что «Яндекс» внедрил многоголосый закадровый перевод видео и возможность синхронного перевода прямых трансляций.

В переводе видео принимают участие сразу четыре нейросети. Одна из них распознаёт речь с последующим преобразованием в текстовый формат, ещё одна идентифицирует пол говорящего по биометрическим данным, третья определяет, в каких местах необходимо расставлять знаки препинания и выделить смысловые фрагменты. Наконец, четвёртая переводит текст.

На YouTube появится больше видео с возможностью выбора языка озвучки

Видеохостинг YouTube расширяет круг создателей контента, имеющих возможность загружать аудиодорожки к видео на разных языках для своих видеоматериалов. Компания уже тестирует функцию на ограниченном числе авторов, а теперь такая возможность появилась у более широкой группы авторов.

 Источник изображения: MrBeast

Источник изображения: MrBeast

Желающие оценить функцию самостоятельно, могут зайти на канал MrBeast — ролик о выживании в течение 50 часов в Антарктиде. Нажав на значок шестерёнки, можно увидеть возможность выбора одной из 12 звуковых дорожек: русской, английской, португальской, французской, турецкой, испанской, корейской, арабской, индонезийской, вьетнамской, тайской, хинди.

При этом, разумеется, только одна из звуковых дорожек оригинальная, а остальные — дублированные. Открывающему видео по умолчанию доступна дорожка на том языке, каким он преимущественно пользуется в сервисе, но можно выбрать и любую из других доступных.

В ходе предварительного тестирования сервис YouTube сообщил, что, по данным на январь 2023 года, уже загружено более 3500 многоязычных видео с использованием более 40 языков. У таких видео повышено общее время просмотра, в среднем 15 % времени в январе приходилась на просмотры на «неосновном» языке.

Более того, возможность создания видео со звуковыми дорожками на разных языках также означает, что авторам не понадобится создавать отдельные каналы для разных языковых аудиторий. Вместо этого они смогут дублировать звуковое сопровождение в основном.

Расширенные возможности появились уже после того, как бывшая глава YouTube Сьюзан Воджитски (Susan Wojcicki) покинула недавно свой пост, хотя разработка новой функциональности велась задолго до её ухода.

Google научила Переводчик лучше переводить двусмысленности и игру слов

Сегодня на мероприятии «Прямой эфир из Парижа» Google анонсировала множество новых функций для своего Переводчика (Google Translate), включая улучшенный контекстный перевод, переработанное приложение для iOS и функцию бесшовного перевода при использовании дополненной реальности с помощью Google Lens.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

На первом этапе поисковый гигант улучшит контекстный перевод на английском, французском, немецком, японском и испанском языках. Это обновление будет выпущено в ближайшие недели, а в ближайшие месяцы список поддерживаемых языков значительно расширится.

Теперь слова и фразы с несколькими трактовками будут переведены в зависимости от контекста, а предложения с использованием идиом будут звучать предельно естественно и корректно восприниматься носителями языка. Новые функции также позволят избежать нежелательного, оскорбительного или агрессивного перевода.

В прошлом году компания обновила приложение Google Translate для Android, добавив новый дизайн, соответствующий концепции Material You. Теперь и в приложение для iOS добавлены новые функции и обновлённый пользовательский интерфейс. Приложение получило крупную кнопку микрофона в нижней центральной части для облегчения голосового ввода. Приложение для iOS также обзавелось динамическим шрифтом, делающим переводы более читабельными по мере ввода. Также теперь от пользователя требуется меньше действий для выбора языка. В переработанном приложении добавлен жест смахивания вниз для доступа к недавним переводам и удержание кнопки языка для быстрого выбора недавно использовавшегося языка.

Приложение для iOS также недавно получило поддержку автономного перевода на 33 новых языка, включая баскский, корсиканский, гавайский, хмонг, курдский, латынь, люксембургский, суданский, идиш и зулу.

В сентябре прошлого года Google продемонстрировал новую функцию перевода, которая интеллектуально смешивает перевод с оригинальным изображением, заменяя только переведённый текст. То есть при переводе с помощью наведения камеры смартфона на постер, плакат или объявление пользователь увидит на дисплее исходное изображение с переведённым по месту текстом. Можно перевести текст и на сохранённых картинках. В настоящее время компания развёртывает эту возможность на Android-смартфонах с 6 Гбайт ОЗУ или более.

Помимо этого, Google также объявила о глобальном запуске мультипоиска, а также об улучшениях для Карт, включая иммерсивные виды пяти новых городов и расширение функции просматриваемых маршрутов для всех пользователей.


window-new
Soft
Hard
Тренды 🔥
Хардкорный режим, скачки и три сюжетных дополнения: Warhorse рассказала, как будет поддерживать Kingdom Come: Deliverance 2 после релиза 5 ч.
HPE проводит расследование в связи с заявлением хакеров о взломе её систем 5 ч.
«Мы создали CRPG нашей мечты»: продажи Warhammer 40,000: Rogue Trader превысили миллион копий 6 ч.
Создатели Lineage и Guild Wars отменили MMORPG во вселенной Horizon Zero Dawn и Horizon Forbidden West 6 ч.
Instagram начал переманивать блогеров из TikTok денежными бонусами до $50 тысяч в месяц 7 ч.
Eternal Strands, Starbound, Far Cry New Dawn и ещё шесть игр: Microsoft рассказала о ближайших новинках Game Pass 8 ч.
ИИ превзойдёт человеческий разум в течение двух-трёх лет, уверен глава Anthropic 8 ч.
Keep Driving вышла на финишную прямую — новый трейлер и дата релиза ностальгической RPG о путешествии по стране на своей первой машине 9 ч.
Google стала на шаг ближе к ИИ, который думает как человек — представлена архитектура Titans 11 ч.
У «Ростелекома» произошла утечка данных — клиентам рекомендовано сменить пароли 11 ч.
GeForce RTX 5000 Kingpin не будет — легендарный оверклокер рассказал о планах на будущее, в которых есть место не только Nvidia 2 ч.
Слухи: OpenAI, Oracle и Softbank вложат $100 млрд в ИИ-инфраструктуру США, а в перспективе — до $500 млрд 3 ч.
Новая статья: Обзор смартфона OPPO Find X8: очень удобный флагман 3 ч.
К мемкоинам приведут настоящих инвесторов — поданы заявки на крипто-ETF в Dogecoin и TRUMP 4 ч.
Европа установила рекорд по отрицательным и нулевым ценам на электричество в 2024 году 4 ч.
Fujifilm представила гибридную камеру мгновенной печати Instax Wide Evo с широкоугольным объективом 8 ч.
Новый Apple iPhone SE получит вырез Dynamic Island вместо чёлки 9 ч.
К 2035 году США смогут получать до 84 ГВт из источников возобновляемой энергии на федеральных землях 10 ч.
Maxsun выпустила новые видеокарты на чипах Nvidia Kepler десятилетней давности 10 ч.
«Транснефть» направила повторный иск к Cisco на 56 млн рублей 10 ч.