Теги → лингвистика

Baidu выпустила ERNIE 2.0 — новую модель для понимания человеческого языка при помощи ИИ

В марте этого года китайская компания Baidu представила первую версию ERNIE (Enhanced Representation through kNowledge IntEgration), нового фреймворка и модели для обработки естественного языка (Natural Language Processing — NLP), который поднял настоящую волну в сообществе разработчиков NLP-систем, опередив Google BERT (Bidirectional Encoder Representations from Transformers) в различных задачах по анализу текстов на китайском языке. Теперь Baidu сообщила о выпуске новой версии модели — ERNIE 2.0. В своей исследовательской работе учёные из Baidu утверждают, что ERNIE 2.0 превосходит модели BERT и более современную XLNet в 16 задачах NLP на китайском и английском языках.

Вчера Baidu представила новую версию предварительно обученной нейронной модели ERNIE 2.0, предназначенной для решения задач связанных с пониманием естественного языка и показывающей лучшую производительность, чем существующие аналоги

Baidu представила новую версию предварительно обученной нейронной модели ERNIE 2.0

ERNIE представляет собой предварительно обученную нейронную сеть, созданную при помощи PaddlePaddle — открытой платформы для глубокого обучения, созданной в Baidu. Процесс предварительного обучения NLP-моделей, таких как BERT, XLNet и ERNIE, в основном базируется на нескольких простых задачах, моделирующих использование слов или предложений с учётом их связи и семантики. Например, BERT использует модель двунаправленного языка (bidirectional language model) и задачу по прогнозированию следующего предложения, чтобы получить информацию о совпадениях, а XLNet применяет модель языковых перестановок (permutation language model).

Структура ERNIE 2.0, в которой различные задачи для обучения могут ставиться одновременно и добавляться по мере необходимости, а сама модель может быть настроена для решения любого типа задач в области понимания естественного языка.

Структура ERNIE 2.0, в которой различные задачи для обучения могут ставиться одновременно и добавляться по мере необходимости, а сама модель может быть настроена для решения любого типа задач в области понимания естественного языка.

Но помимо порядка слов и их связи, в лингвистических системах есть гораздо более сложная лексическая, синтаксическая и семантическая информация. Например, различные названия и имена собственные — имена людей, географические названия и названия организаций — содержат концептуально важную информацию. В то же время информация о порядке и последовательности предложений даёт возможность NLP-моделям изучать языковые конструкции с учетом их структуры, а семантическое сходство и логические связи между предложениями позволяют исследовать семантические языковые правила. Таким образом языковым моделям для максимальной точности и производительности необходимо учитывать как минимум три указанных подхода. И исследователи Baidu задались вопросом: «Возможно ли использовать их параллельно и непрерывно? ».

Входные данные для ERNEIE включают в себя токены (единицы анализа текста), сами анализируемые предложения, данные о позициях токенов в них и необходимые для выполнения задачи.

Входные данные для ERNEIE включают в себя токены (единицы анализа текста), сами анализируемые предложения, информацию о позициях токенов в них и необходимые для выполнения задачи.

Основываясь на этой идее, они предложили структуру для непрерывного обучения модели пониманию языка, в которой задачи предварительного обучения могут создаваться в любой момент и выполняться за счёт заложенной многозадачности для обучения и кодирования лексической, синтаксической и семантической информации между ними. И всякий раз, когда добавляется новая задача, эта структура может постепенно обучать распределенные представления, не забывая ранее обученные параметры.

В тестировании на наборе данных GLUE для английского языка ERNIE 2.0 обошла BERT и XLNet в 7 задачах из 9

В тестировании на наборе данных GLUE для английского языка ERNIE 2.0 обошла BERT и XLNet в 7 задачах из 9

Команда Baidu сравнила производительность ERNIE 2.0 с другими NLP-моделями для английского языка на наборе данных GLUE и отдельно на 9 популярных наборах для китайского языка. Результаты показывают, что ERNIE 2.0 превосходит BERT и XLNet в 7 задачах на понимание английского языка и превосходит BERT по всем 9 задачам, когда дело касается китайского, таких как машинное чтение с использованием набора данных DuReader, семантический анализ и ответы на вопросы.

Чтобы узнать больше об ERNIE 2.0, вы можете прочитать исследовательскую работу на английском языке, а исходные коды и предварительно обученную модель можно загрузить с официальной страницы на GitHub.

Google Translate довёл число поддерживаемых языков до 90

Сервис машинного перевода компании Google научился работать с десятью новыми языками, что увеличило его потенциальную аудиторию на 200 млн человек. Последнее обновление особенно примечательно потому, что него входит бирманский язык — официальный язык Мьянмы и некоторых районов Индии, на котором разговаривают около 38 млн человек. Это ещё раз подказывает, что Google более чем серьёзно относится к выходу на индийский рынок.

Это уже не первый шаг Google в этом направлении. Так, в начале декабря Google создала организацию Indian Language Internet Alliance, которая будет заниматься разработкой услуг для носителей языка хинди. В частности, в рамках альянса будет совершенствоваться голосовой поиск Google на хинди. Тогда управляющий директор Google India Раджан Анандан (Rajan Anandan) заявил, что компания поставила цель к 2017 году обеспечить выход в Интернет для 500 млн жителей Индии. Он добавил, что для этого необходимо работать и с теми людьми, которые не говорят по-английски.

Google Translate

Официальными языками Индии являются английский и хинди, однако частично признаны ещё 20 языков. Всего же в Индии в ходу 780 разных языков, из которых на 122 языках разговаривают больше 10 тысяч носителей.

По информации Google, в результате последнего обновления число языков, с которыми умеет работать Translate, достигло 90. Сервис постоянно совершенствуется благодаря большому сообществу пользователей, уточняющих переводы слов и выражений.

ABBYY Lingvo Live: живой словарь, соцсеть и площадка для обучения

Компания ABBYY объявила о начале бета-тестирования кроссплатформенного социального сервиса Lingvo Live с бесплатным онлайн-доступом к словарям и другим возможностям для всех, кто в той или иной степени сталкивается с иностранными языками.

В бета-версии Lingvo Live доступны более 130 словарей для 14 языков. Также пользователи могут добавлять свои варианты перевода, пополняя словарную базу под названием «Народный словарь», и просить помощи у сообщества, если не уверены в значении какого-то слова. Другие участники могут оценивать переводы и оставлять к ним комментарии. На сервисе действует пост-модерация: лингвисты ABBYY проверяют добавленный пользовательской аудиторией контент, чтобы словарная база оставалась качественной и современной.

В настоящий момент доступна бета-версия сайта lingvolive.ru и в ближайшее время версия бесплатного приложения для iOS будет доступна в Apple App Store. Позже появятся программы-клиенты для других мобильных платформ и версия для ПК. В будущих версиях сервиса разработчики также планируют добавить возможности для изучения языков и раздел, в котором пользователи смогут предлагать услуги профессионального перевода и репетиторства.

«Lingvo Live — живой «словарь». Сервис сегодня — это авторитетные словари, ежечасно обновляемый народный словарь и сообщество для обсуждения переводов и обучения. А в будущем в Lingvo Live появятся возможности для изучения языков и фриланс-площадка для профессиональных переводчиков. Вам нужно перевести слово, фразу или целую книгу? Вы учите язык? Заходите в Lingvo Live из браузера или с мобильного устройства, и сервис позволит решить все эти вопросы», — прокомментировал выпуск продукта Давид Ян, председатель совета директоров и основатель компании ABBYY. 

ABBYY Language Services обновила сервис профессионального перевода Perevedem.ru

Российская компания ABBYY Language Services, входящая в группу ABBYY и работающая в области лингвистических услуг и технологий автоматизации процессов перевода, представила обновленный сервис профессионального онлайн-перевода Perevedem.ru, предназначенного как для частных пользователей, так и для корпоративных клиентов.

Разработка нового Perevedem.ru, как сообщают в пресс-службе компании, велась с учетом требований и пожеланий реальных пользователей сервиса, среди которых были частные лица и бизнес-пользователи. В основу сервиса положены технологии распознавания текста (OCR), облачные вычисления и современные лингвистические технологии ABBYY Language Services, созданные при поддержке IT-кластера «Сколково», что позволяет загружать на перевод документы в более чем 30 форматах (текстовые файлы, таблицы, презентации), в том числе изображения и отсканированные документы.

Для того чтобы начать работу с сайтом Perevedem.ru, нужно загрузить документ любого формата, сложности и объема: система сама определит язык оригинала и количество слов. Затем пользователь выбирает язык перевода, назначение переведенного текста и оплачивает заказ. Сразу после этого текст передается в работу, и заказчик может отслеживать ход ее выполнения в реальном времени. При этом сроки и стоимость четко фиксируются, а заказчик в любой момент времени может видеть статус и оставшееся время. Как только перевод будет завершен, пользователь получит уведомление о готовности заказа и сможет скачать переведенные файлы в личном кабинете.

Стоимость перевода зависит от типа перевода и языковой пары. На выбор предоставляются три типа переводов — «Экспресс», «Профессиональный» и «Экспертный», разнящихся качеством локализации материалов, назначением и, конечно же, стоимостью. Дополнительные сведения о проекте можно найти по приведенной выше ссылке.

Вышло десятое поколение систем перевода PROMT

Компания PROMT объявила о выпуске десятого поколения решений по автоматическому переводу текстов для частных и корпоративных пользователей. В новую линейку вошли продукты PROMT Home 10, PROMT Professional 10, PROMT Expert 10 и PROMT для Microsoft Office.

В основу представленных отечественным разработчиком программ легли усовершенствованные механизмы и технологии перевода, а также существенно переработанные и дополненные словарные базы, расширение которых позволило включить поддержку новых языковых направлений перевода — с итальянского на русский, с португальского на русский и обратно.

В числе прочих особенностей обновленной линейки продуктов разработчики PROMT отмечают: автономность и конфиденциальность (упомянутые приложения работают в автономном режиме, не требуют подключения к Интернету, поэтому вся переводимая информация остается конфиденциальной); возможность перевода различных документов с сохранением исходного форматирования (поддерживаются PDF, файлы Microsoft Office, RTF, TXT, HTML, XML и прочие форматы); наличие личного раздела пользователя MyPromt, предоставляющего различные онлайновые сервисы. Отдельного упоминания заслуживает плагин PROMT Агент, обеспечивающий перевод текстов в любом поддерживающем операции с буфером обмена приложении Windows с помощью комбинации «горячих клавиш».

Все продукты нового поколения PROMT функционируют под управлением операционных систем Windows, могут быть интегрированы с Internet Explorer, Mozilla Firefox, Microsoft Office, OpenOffice.org Writer, позволяют устанавливать дополнительные специализированные словари и допускают повышение качества перевода с помощью средств лингвистической настройки переводчика.

Программные продукты PROMT могут быть использованы для профессионального перевода документов различных форматов, веб-страниц, поисковых запросов, электронной почты, а также решения прочих задач, будь то извлечение терминологии из текстов или пакетный перевод файлов.

Получить подробную информацию о новой линейке переводчиков PROMT можно на сайте promt.ru в разделах для частных и корпоративных пользователей.

ABBYY рапортует об успехах на рынке ПО

Российская компания ABBYY, известная своими решениями в области распознавания и ввода документов, лингвистики и перевода, подвела итоги своей деятельности в 2011 году.

Согласно обнародованным сведениям, доходы компании в России выросли на 46%, что примерно в два раза превышает темпы роста отечественного рынка программного обеспечения, который по предварительным оценкам экспертов International Data Corporation в прошлом году вырос на 22%. Рост доходов ABBYY в мировом масштабе составил 35%.

Существенная часть доходов софтверного разработчика на российском рынке пришлась на корпоративный сегмент. При этом значительную долю выручки составили системы массового ввода и обработки документов на базе линеек продуктов ABBYY FlexiCapture и Recognition Server - продажи данных решений выросли на 65%. Не остался незамеченным и мобильный сектор, отметившийся 72-процентным ростом продаж приложений компании для портативных устройств.

"В прошлом году существенная часть корпоративных клиентов разморозили инвестиции в инфраструктурные IT-проекты, также оживление произошло и на рынке массового ПО. Эти факторы позволили нам значительно увеличить темпы роста бизнеса по сравнению с предыдущими годами, - комментирует Григорий Липич, генеральный директор ABBYY Россия. - Что касается стратегического развития, то компания продолжает наращивать инвестиции в разработку лингвистических технологий нового поколения Compreno: в 2011 году мы начали реализацию пилотных внедрений в крупных организациях".

С подробным отчетом об итогах работы ABBYY в 2011 году можно ознакомиться на сайте компании по адресу abbyy.ru.

Материалы по теме:

Источник:

window-new
Soft
Hard
Тренды 🔥