Компания «Яндекс» повысила качество работы своей службы машинного перевода, произведя дополнительное обучение лежащей в её основе нейросети при помощи большой языковой модели YandexGPT. В результате «Яндекс Переводчик» стал лучше ориентироваться в контексте, фразеологизмах и профессиональной лексике.
Дополнительное обучение помогло сервису более качественно устанавливать связь между предложениями, и теперь он лучше справляется с длинными текстами. Благодаря навыкам анализа контекста машинный переводчик определяет профессиональную направленность текста и оставляет необходимые термины без перевода.
«Яндекс» начал использовать ИИ в «Переводчике» с 2018 года, обучив его на парах текстов — в оригинале и переводе на другой язык. Это легковесная нейросеть, которая может в реальном времени обрабатывать большое число запросов. YandexGPT, напротив, генерирует сложные тексты в лексическом и стилистическом разнообразии, включая специфическую терминологию. Поэтому большую языковую модель решили привлечь для дополнительного обучения нейросети-переводчика.
Инженеры «Яндекса» подготовили специальную версию YandexGPT, оптимизированную для перевода текстов. На этапе предварительного обучения она обработала большой объём текстов на русском и английском языках, изучила лексику, морфологию и синтаксис. Далее была произведена тонкая настройка большой языковой модели под задачи перевода; на этапе Reinforcement Learning (RL) производилась оценка качества перевода YandexGPT, а результаты ранжировались от лучших к худшим.
По завершении дополнительного обучения нейросети «Яндекс Переводчика» её работу подвергли сравнительной оценке. Владеющие русским и английским языками специалисты сравнивали пары длинных и сложных текстов, переведённых двумя версиями нейросети — новая справилась со своей задачей лучше в 57 % случаев. Обновлённая платформа уже подключена к «Яндекс Переводчику», поисковой системе и службе перевода видео в «Яндекс Браузере».
Источник: