Сегодня 23 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → yandexgpt 2
Быстрый переход

«Яндекс» научил телевизоры понимать незнакомые голосовые команды с помощью ИИ

Голосовой помощник «Алиса» получил возможность управлять «ТВ Станциями» при помощи команд в произвольной форме — для этого ассистент обрабатывает инструкции с помощью большой языковой модели YandexGPT 4. Ранее «Алиса» была ограничена только заранее заложенными командами.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

«Алиса» научилась «думать» — использовать языковую модель YandexGPT 4 не только для подготовки развёрнутых ответов в диалоговом интерфейсе, но и для выполнения команд пользователя: запрос анализируется, после чего принимается решение о порядке его исполнения. Технология называется «смарт-функции». Ранее голосовой помощник обрабатывал только те команды, которым был предварительно обучен — при любом отклонении от этого стандарта «Алиса» отвечала, что «этого пока не умеет».

Сейчас, если система сталкивается с нестандартным запросом, она разделяет его на составные части и выполняет шаг за шагом. Можно попросить «Алису» выключить телевизор, когда закончится текущий матч — она узнает, сколько осталось до его завершения и поставит таймер на это время. Аналогичным образом упростилась процедура добавления фильма или сериала в список «Буду смотреть»: раньше для этого нужно было произвести поиск по соответствующему наименованию и только после этого добавить — сейчас фильм или сериал добавляются в список «Буду смотреть» без поиска или развёртывания карточки на экране.

Наконец, поддерживаются составные команды, предусматривающие последовательность действий и задачи разного типа, например «Алиса, добавь „Барсукот“ в „Буду смотреть“, а сейчас включи „Три кота“» или «Алиса, включи первый фильм на громкости 20». В перспективе «Яндекс» пообещал дополнительно усложнить механизм работы голосового помощника с нейросетью: задачи будут включать несколько этапов, в том числе взаимодействие с устройствами умного дома и службами «Яндекса».

«Яндекс» встроил нейросеть YandexGPT 4 в редакторы текста и таблиц — она знает русский или английский

Компания «Яндекс» обновила свои онлайн-редакторы для текстовых документов и электронных таблиц — в них теперь встроена поддержка нейросети YandexGPT 4, которая генерирует текст. Программы доступны в бета-режиме, и пользоваться ими можно бесплатно.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В новой версии редакторы справляются с документами объёмом до 1000 страниц и поддерживают совместную работу до 100 пользователей. Большая языковая модель YandexGPT 4 по текстовому запросу в произвольной форме помогает создать текст с нуля или отредактировать существующий: исправить в нём ошибки или изменить интонацию. Искусственный интеллект также может сократить текст, оставив в нём наиболее важные тезисы — поддерживаются русский и английский языки. В перспективе появится поддержка комментариев для документов.

Редакторы нового поколения доступны в службе «Документы» — чтобы подключиться к бета-тестированию, потребуется выбрать на верхней панели переключатель «Новый редактор». Сейчас приложения доступны в веб-версии сервиса, но в будущем году компания намеревается выпустить их варианты для настольных компьютеров. Бизнес-клиенты платформы «Яндекс 360» смогут развернуть платформу для документов на собственных серверах, чтобы обеспечить безопасность данных.

«Мы запустили редакторы в статусе бета-версии, чтобы пользователи могли оценить их производительность и попробовать новый интерфейс. В редакторах недостаёт ряда функций, но мы работаем над тем, чтобы они появились как можно быстрее», — отметил Сергей Педченко, руководитель группы технологического развития «Яндекс 360».

Представлены ИИ-модели YandexGPT 4 — они научились рассуждать и обрабатывать до 60 страниц текста за раз

«Яндекс» представил модели генеративного искусственного интеллекта нового поколения YandexGPT 4 — они включают более мощную версию Pro и облегчённую Lite. По качеству ответов они превосходят модели предыдущих поколений, умеют рассуждать, а максимальная длина запросов выросла вчетверо и достигла объёма примерно в 60 страниц текста.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

Испробовать модели YandexGPT 4 можно в инфраструктуре Yandex Cloud, подключившись к ним по API, но часть функций пока работает в тестовом режиме. Бизнес-пользователи смогут применять их в самых разных целях: сортировать письма и заявки клиентов, отправлять резюме на анализ и выполнять другие задачи, связанные с обработкой текста. YandexGPT 4 Pro окажется полезной в анализе продаж и других сложных задачах, а Lite пригодится там, где важно получать быстрый ответ. В перспективе новые модели начнут развёртываться и в службах для широкой аудитории — первой станет «Алиса» с опцией «Про».

Качество ответов YandexGPT 4 Pro по сравнению с нейросетями «Яндекса» предыдущего поколения выросло в среднем на 70 %, а в некоторых задачах, например, в обработке открытых вопросов она приблизилась к OpenAI GPT-4o; YandexGPT 4 Lite не уступает самым мощным версиям предыдущего поколения. Разработчики улучшили процесс обучения нейросетей и обеспечили им способность к рассуждениям: модели разбивают сложные задачи на несколько простых и пошагово продвигаются к решению, выстраивая цепочку. На практике YandexGPT сможет изучить жалобу клиента, разобраться в его проблеме и предложить решение.

Контекст запросов для моделей нового поколения вырос в четыре раза и достиг объёма примерно в 60 страниц текста — это помогает им эффективнее отвечать на вопросы с использованием внешних источников, например, статей или документов компании. С 4 % до 2,1 % сократилась доля выдуманных фактов в ответах; в среднем в два раза увеличилась скорость ответов. Нейросети YandexGPT 4 получили поддержку управления внешними приложениями — они смогут, например, найти свободное место в самолёте и забронировать билет на него. Разработчикам приложений потребуется описать функции и правила составления команд, а модели самостоятельно примут решение, когда запустить эту возможность.

«Яндекс» ищет тренеров для обучения YandexGPT переводу текста с изображений, аудио- и видеофайлов

Нейросеть YandexGPT научат распознавать и переводить текст с изображений, аудио- и видеофайлов, пишут «Ведомости» со ссылкой на описание вакансии AI-тренера, опубликованной на сайте компании «Яндекс». По словам источника ресурса, близкого к «Яндексу», предполагается нанять около десятка специалистов такого профиля.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

Как указано в описании вакансии, в обязанности тренера входит обучение генеративной модели, создавая собственные эталонные примеры, а также оценка качества перевода и обучение нейросети распознаванию и переводу текста с изображений и видео.

В начале 2023 года «Яндекс» объявляла набор AI-тренеров для обучения моделей семейства YandexGPT, напомнил представитель компании. Но если тогда принимали на работу специалистов гуманитарного направления, умеющих работать с русскоязычными текстами, то сейчас речь идёт о специалистах, ориентирующихся в узкоспециализированных тематиках, чтобы точечно углубить знания ИИ-модели. Например, они должны разбираться в терминологии самых разных направлений — от физики до юриспруденции, сообщил представитель «Яндекса».

Гендиректор Dbrain, автор Telegram-канала AI Happens Алексей Хахунов отметил, что в машинном обучении самыми важными критерии являются чистота и качество данных. По словам Хахунова, для обучения современных моделей нужны два типа специалистов: нейролингвисты, которые знают, как работают нейросети и могут создавать современные алгоритмы — в первую очередь машинных переводов, и специалисты, в совершенстве владеющие несколькими языками, что позволяет создавать пары между различными языками.

При этом нужно делать не дословный перевод, а собирать семантически близкие виды переводов. «Одни и те же фразы по смыслу могут звучать по-разному на разных языках, и важно, чтобы переводчик опирался на глубокое понимание языка, а не на дословный перевод», — пояснил эксперт.

С ним согласился эксперт Альянса искусственного интеллекта Андрей Комиссаров, по словам которого, проблема в том, что на большом количестве языков нейросети делают дословный перевод, поскольку не ощущают тонкостей языка и не могут работать с фразеологизмами. «В данном случае речь идёт о дообучении модели. Для этого необходимо чутье языка», — отметил он.

Сейчас с переводом у нейросетей дела идут по-разному. «Если с английским языком машина более-менее справляется, то в случае с китайским, если перевести текст туда и обратно, он фактически превратится в бессвязный набор слов», — сообщил Комиссаров.

Новая статья: Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat

Данные берутся из публикации Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat

«Яндекс» повысила качество работы «Переводчика» с помощью YandexGPT

Компания «Яндекс» повысила качество работы своей службы машинного перевода, произведя дополнительное обучение лежащей в её основе нейросети при помощи большой языковой модели YandexGPT. В результате «Яндекс Переводчик» стал лучше ориентироваться в контексте, фразеологизмах и профессиональной лексике.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

Дополнительное обучение помогло сервису более качественно устанавливать связь между предложениями, и теперь он лучше справляется с длинными текстами. Благодаря навыкам анализа контекста машинный переводчик определяет профессиональную направленность текста и оставляет необходимые термины без перевода.

«Яндекс» начал использовать ИИ в «Переводчике» с 2018 года, обучив его на парах текстов — в оригинале и переводе на другой язык. Это легковесная нейросеть, которая может в реальном времени обрабатывать большое число запросов. YandexGPT, напротив, генерирует сложные тексты в лексическом и стилистическом разнообразии, включая специфическую терминологию. Поэтому большую языковую модель решили привлечь для дополнительного обучения нейросети-переводчика.

Инженеры «Яндекса» подготовили специальную версию YandexGPT, оптимизированную для перевода текстов. На этапе предварительного обучения она обработала большой объём текстов на русском и английском языках, изучила лексику, морфологию и синтаксис. Далее была произведена тонкая настройка большой языковой модели под задачи перевода; на этапе Reinforcement Learning (RL) производилась оценка качества перевода YandexGPT, а результаты ранжировались от лучших к худшим.

По завершении дополнительного обучения нейросети «Яндекс Переводчика» её работу подвергли сравнительной оценке. Владеющие русским и английским языками специалисты сравнивали пары длинных и сложных текстов, переведённых двумя версиями нейросети — новая справилась со своей задачей лучше в 57 % случаев. Обновлённая платформа уже подключена к «Яндекс Переводчику», поисковой системе и службе перевода видео в «Яндекс Браузере».

«Яндекс» запустил генеративную нейросеть YandexGPT Lite третьего поколения

Компания «Яндекс» официально представила облегчённую версию своей генеративной нейросети третьего поколения YandexGPT 3 Lite. ИИ-сервис доступен клиентам облачной платформы Yandex Cloud через соответствующий API. Нейросеть может быть полезна для разных сценариев использования, например, в чат-ботах, для проверки орфографии или анализа данных.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В компании отметили, что новая версия нейросети подходит для применения в разных сегментах бизнеса. Использование YandexGPT 3 Lite позволит оптимизировать процесс выполнения разных задач, включая консультирование клиентов по телефону и в чатах, подготовку ответов для служб поддержки, генерацию маркетинговых материалов и др. В крупных организациях со сложными бизнес-процессами и большими потоками данных ИИ-сервис может оказаться полезным для анализа информации.

По словам разработчиков «Яндекса», YandexGPT 3 Lite по многим параметрам превосходит ИИ-модель предыдущего поколения. В ходе тестирования языковой модели в YaMMLU_ru (русскоязычная версия международного эталонного теста MMLU) было установлено, что YandexGPT 3 Lite даёт на 6 % больше верных ответов, чем модель YandexGPT 2 Lite.

Алгоритмы также сравнивались по методу Side by Side, когда им приходится отвечать на одинаковые вопросы, а лучший ответ выбирается экспертной группой. В результате было установлено, что YandexGPT 3 Lite отвечает лучше в 68 % случаев. Ещё в ходе тестирования специалисты оценили, насколько хорошо YandexGPT 3 Lite справляется с задачами классификации, генерации контента, ответами на вопросы и др. Также упоминается, что новый алгоритм допускает меньше орфографических и фактических ошибок по сравнению с YandexGPT 2 Lite.

В процессе создания новой ИИ-модели разработчики усовершенствовали все этапы обучения. Был улучшен отбор данных для предварительного этапа обучения, за счёт чего увеличилась доля полезной информации. Также была задействована технология Curriculum Learning для поэтапного усложнения данных. На втором этапе обучения, включающем в себя обучение с подкреплением, была улучшена модель для оценки качества ответов алгоритма. В дополнение к этому в архитектуре нейросети появилась технология Grouped Query Attention для ускорения обработки данных без потери качества.

Стоимость использования YandexGPT 3 Lite составляет 20 копеек за 1000 токенов. Новые пользователи Yandex Cloud смогут бесплатно протестировать ИИ-сервис в демо-режиме. Новая модель заменит предыдущую версию алгоритма в течение месяца.

«Яндекс» представил поумневшую «Алису» на YandexGPT и её платную версию

«Яндекс» представил обновлённую версию голосового помощника «Алиса» — теперь к нему постоянно подключена большая языковая модель YandexGPT. «Алиса» научилась самостоятельно объяснять сложные понятия, предлагать идеи и ориентироваться в контексте диалога с пользователем. Запущена и более мощная её версия — «Алиса Про», которая доступна по подписке.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

Ранее «Алиса» самостоятельно отвечала лишь на 60 % вопросов, по остальным направляя пользователя в веб-поиск. С подключением YandexGPT ей стали доступны 95 % пользовательских запросов, и теперь она может дать ссылку на источник информации, если какие-то сведения были обнаружены на определённом сайте. Генерация текста стала доступной без подключения навыка «Давай придумаем» — можно просто спросить, что подарить коллеге или приготовить на завтрак.

Чтобы общение с «Алисой» было комфортным, чат с голосовым помощником перенесли на отдельную страницу a.ya.ru. Чат синхронизируется на разных устройствах, но можно запустить несколько чатов параллельно и, к примеру, в одном общаться с «Алисой» голосом, а в другом — в текстовом формате. Голосовой помощник удерживает контекст беседы. Так, если завести разговор о собаке и спросить «сколько времени ей нужно уделять», «Алиса» поймёт, что имеется в виду. А если не поймёт, задаст уточняющий вопрос, как это делает человек.

Доступна и более мощная версия виртуального ассистента «Алиса Про», к которому подключена самая мощная из имеющихся в распоряжении «Яндекса» больших языковых моделей — YandexGPT 3 Pro. Передовая нейросеть помогает «Алисе» давать развёрнутые ответы, обрабатывать разные стили и следовать инструкциям с несколькими условиями. «Алиса Про» окажется полезной не только в работе, но и дома — голосовой ассистент может работать в качестве виртуальной няни. Она может разбудить ребёнка, проведёт зарядку, напомнит почистить зубы или предложит развивающую игру. Продвинутая версия голосового помощника «Алиса Про» доступна для подписчиков «Яндекс Плюс» в качестве дополнительной опции по цене 100 рублей в месяц — первые полгода действует бесплатный пробный период.

Яндекс представил третье поколение нейросетей YandexGPT

Компания «Яндекс» представила семейство больших языковых моделей нового поколения YandexGPT 3; пользователи Yandex Cloud уже могут поработать с одной из них — YandexGPT 3 Pro. Она лучше подходит для бизнес-пользователей, поскольку эффективнее обрабатывает сложные запросы и может следовать заданному формату ответов на них. При необходимости можно дополнительно обучить YandexGPT 3 самостоятельно. В ближайшее время нейросети нового поколения появятся в сервисах «Яндекса» для широкого круга пользователей.

 Источник изображений: yandex.ru/company

Источник изображений: yandex.ru/company

YandexGPT 3 Pro демонстрирует особые успехи в сферах клиентской поддержки, онлайн-продаж, цифровых коммуникаций, рекламы и управления персоналом. Она может самостоятельно создавать договоры, счета, должностные инструкции, нормативную и прочую документацию. YandexGPT 3 Pro значительно продвинулась вперёд относительно YandexGPT 2: новая нейросеть корректно обрабатывает инструкции с несколькими условиями, её ответы стали точнее и полнее, работа с фактами — более тщательной, а процент стилистических ошибок снизился.

«Яндекс» использовал несколько тестов, чтобы оценить работу YandexGPT 3 Pro. Была разработана русскоязычная версия международного бенчмарка MMLU — ему дали название YaMMLU_ru. Чтобы оценить работу ИИ-модели в задачах по генерации идей, обобщению данных, классификации и генерации контента, использовалась методика тестирования Side by Side (SBS). YandexGPT 3 в 69 % случаев давала более качественные ответы на пользовательские запросы, чем YandexGPT 2; в бизнес-запросах она стала лучше в 60 % случаев.

Качество ответов в рамках заданного формата проверялось с помощью русскоязычного теста на основе бенчмарка IFEval: у YandexGPT 3 оно по сравнению с YandexGPT 2 выросло на 10 п.п., а консистентность удвоилась — это значит, что модель нового поколения стала лучше понимать, как отвечать на одинаковые по содержанию, но разные по форме запросы.

Наконец, число фактических ошибок YandexGPT 3 сократилось с 16,4 % до 13,5 %, а доля неподтверждённой информации упала с 6,4 % до 5 %. В 5 раз сократилось число отказов отвечать на запросы. Эти испытания разработчики провели на особо сложных запросах, которые могут возникнуть в реальных сценариях.

«Яндекс Переводчик» научился редактировать тексты на английском с помощью YandexGPT

«Яндекс» сообщил о расширении возможностей сервиса «Яндекс Переводчик», который теперь не только поможет пользователям сделать перевод контента, но отредактировать тексты на английском с помощью нейросети YandexGPT без глубокого знания языка.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В новом разделе под названием «Редактор», который доступен для пользователей десктопной версии переводчика, можно улучшить текст, не исказив смысл написанного, переписать в более подходящем стиле с учётом характера общения, а также исправить ошибки. Функцию можно применить как ко всему тексту, так и к выделенному фрагменту.

Также с помощью переводчика можно подобрать синонимы для слова или выражения, выбрав подходящий из предложенных вариантов, что позволит разнообразить лексику.

Перечень опций раздела «Редактор» можно выбрать в колонке справа. Там же указано, что вскоре в разделе появятся ещё две опции, позволяющие сделать лексику проще или сложнее. Как отметил «Яндекс», лексику можно будет сделать более «продвинутой», близкой по стилю к академической литературе, научным статьям с помощью добавления в текст сложносоставных конструкций и редко употребляемых слов. Или, наоборот, упростить и сделать текст понятней для людей с базовым уровнем владения английским языком.

«Яндекс» протестирует новую «Алису» на базе YandexGPT 2

Компания «Яндекс» начала принимать заявки на участие в бета-тестировании новой версии голосового помощника «Алиса», созданного на базе языковой модели YandexGPT 2. Особенностью этой версии ассистента является то, что он способен поддерживать связный диалог и отвечать на уточняющие вопросы с учётом предыдущих реплик.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В дополнение к этому поисковые технологии открыли «Алисе» доступ ко всему интернет-контенту для формирования более точных и развёрнутых ответов. Уже в бета-версии алгоритма нет необходимости запуска навыка «Давай придумаем», поскольку «Алиса» научилась решать разные задачи в одном диалоге с учётом его контекста. К примеру, ассистент подскажет, какие сказки были написаны в XIX веке, после чего может перейти к чтению выбранной пользователем, или объяснит почему небо голубого цвета, и как появляется северное сияние.

Ещё новая версия «Алисы» может не только предложить тезисный план презентации, но и дать советы о том, как лучше подготовиться к публичному выступлению. Голосовой помощник будет полезен при составлении меню новогоднего ужина и создании праздничных поздравлений. Вместе с этим «Алиса» предложит дополнительные игры и обучающие занятия для ежедневного развития детей. Одним из нововведений стал навык «Помощь близких», который позволяет быстро связаться с родственниками.

Принять участие в бета-тестировании новой «Алисы» могут подписчики «Яндекс Плюса». Желающие сделать это, должны оставить заявку на сайте, но количество участников программы тестирования ограничено. Бета-версия ассистента станет доступна пользователям «Яндекс Станций», а также в чате с «Алисой» в приложении «Яндекс», в браузере компании и на странице ya.ru.

«Яндекс» открыл доступ к YandexGPT API для всех пользователей

«Яндекс» сообщил об доступности для всех пользователей YandexGPT API в режиме превью через облачную платформу Yandex Cloud. Также было объявлено о запуске программы грантов Yandex Cloud Boost AI, в рамках которой технологическим компаниям может быть выделено 1 млн рублей на использование YandexGPT API для создания чат-ботов и умных помощников, генерации, структурирования и суммаризации текстовой информации в бизнес-приложениях и веб-сервисах.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

Кроме этого, пользователям предоставят возможность получить консультации архитекторов по работе с нейросетью нового поколения и скидку на дальнейшее использование YandexGPT API в рамках предлагаемых тарифов.

Наряду с моделью для решения задач, где требуется выполнение запросов в режиме реального времени, в YandexGPT API теперь доступна большая модель в асинхронном режиме, предназначенная для решения более сложных текстовых задач, например, для аналитики аудиозаписей.

Также можно воспользоваться библиотекой промтов (готовых текстовых запросов) по наиболее популярным для бизнеса сценариям использования нейросети, которые помогут упростить и ускорить работу с типовыми GPT-сценариями. Например, быстро сгенерировать заголовки или подготовить рекламное объявление.

Бизнес сможет получить бесплатный доступ к сервису в рамках программы Yandex Cloud Boost AI. Для этого компания должна заниматься созданием собственного технологического продукта, и её проект должен быть на стадии MVP и выше. И конечно же, у компании должна быть готова задача для использования YandexGPT API.

В процессе тестирования YandexGPT API было подано более 20 тысяч заявок компаний, больше всего — из сферы ИТ, ретейла и банков.

Нейросеть YandexGPT 2 успешно сдала ЕГЭ по литературе

Разработанная «Яндексом» большая языковая модель YandexGPT 2 справилась с несколькими вариантами ЕГЭ по литературе, получив усреднённую оценку 55 баллов. Это выше минимального порога, необходимого для поступления в вуз (40 баллов) и близко к средней оценке (64 балла), которую получают российские школьники, когда выбирают данный предмет и специально готовятся к экзамену.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

ЕГЭ по литературе содержит несколько испытаний разного рода: вопросы на эрудицию, а также задания для оценки стиля письма и творческих способностей. Для нейросети это непростая задача, но YandexGPT 2 выдержала все испытания: в первой части экзамена она проанализировала произведение и ответила на вопросы о нём, а во второй — написала сочинение на предложенную тему.

В рамках испытания специалисты «Яндекса» получили в Московском центре непрерывного математического образования варианты настоящего ЕГЭ по литературе, которые использовались на тренировочных экзаменах с 2021 по 2023 гг., и удостоверились, что в массиве использованных при обучении YandexGPT 2 данных ответов на эти вопросы нет. Таким образом, нейросеть работала с заданиями наравне с любым школьником, выбирая предложенные варианты и генерируя ответы на открытые вопросы. Проверку проводили официальные эксперты ЕГЭ по литературе.

Разница между сдающими ЕГЭ школьниками и YandexGPT 2 в том, что первые специально готовятся к сдаче, то есть погружаются в специфику предмета, тогда как нейросеть работала скорее экспромтом — схожим образом сдаёт школьные экзамены взрослый человек, опираясь только на накопленные знания. Стандартным способом проверки нейросетей является тест MMLU (Massive Multitask Language Understanding) — он включает вопросы из 57 областей, но не предусматривает оценки ответов на открытые вопросы или написания творческих заданий. Поэтому в «Яндексе» остановились на ЕГЭ по литературе.

«Яндекс Браузер» научился кратко пересказывать видеоролики

Компания «Яндекс» сообщила об очередных доработках своего фирменного браузера и включении функции краткого пересказа русскоязычных видео. Она позволяет быстро ознакомиться с содержанием ролика и понять, есть ли в нём ответ на нужный вопрос.

В основу новой функции положены технологии распознавания речи и генеративная нейросеть нового поколения YandexGPT. Сначала алгоритм конвертирует аудиодорожку в текст с помощью системы распознавания речи, а затем YandexGPT разбивает его на смысловые фрагменты. Нейросеть обобщает каждый из них и указывает таймкод начала блоков, кликнув по которому, можно перейти к интересующему фрагменту видео.

Чтобы получить пересказ ролика, нужно открыть видео в «Яндекс Браузере» и нажать на кнопку «Краткий пересказ». Функция также доступна в поиске «Яндекса» и сервисе краткого пересказа 300.ya.ru.

Согласно данным статистического сервиса LiveInternet.ru, «Яндекс.Браузер» является вторым по популярности веб-обозревателем в Рунете и контролирует 28,3 % рынка. Лидирующую позицию занимает Google Chrome c 51,3 процентами отечественной аудитории (показатели приведены за октябрь 2023 года).

«Алиса» получила нейросеть YandexGPT 2 — она отвечает на вопросы лучше старой в 67 % случаев

«Яндекс» представил новую версию большой языковой модели YandexGPT 2 — она уже поддерживается голосовым помощником «Алиса» и отвечает на пользовательские запросы лучше старой в 67 % случаев. Этого удалось добиться за счёт улучшений на каждом этапе обучения модели, главным из которых оказался претрейн (pretrain).

 Источник изображений: ya.ru/gpt/2

Источник изображений: ya.ru/gpt/2

Для сравнения качества работы первой и второй моделей YandexGPT разработчики подготовили набор из 500 пользовательских заданий, которые максимально отличаются друг от друга, предложили их обеим моделям и сравнили результаты — новая оказалась лучше в 67 % случаев. Чтобы конкретизировать критерии, поставленные задачи были поделены на группы, и оценки отдельно провели по каждой из них:

  • генерация текста — YandexGPT 2 победила в 69 % заданий;
  • пересказ и анализ текста — 68 %;
  • «мозговой шторм» идей — 66 %;
  • стилизация текста под аудиторию или конкретного пользователя — 62 %;
  • ответы на вопросы — 62 %.

Обучение моделей производится в два этапа: один называется претрейн (pretrain), второй — файнтюн (finetune). Первый отвечает за сбор фактической информации, второй — за формат и стиль ответа. Эти этапы независимы друг от друга в том смысле, что проблемы одного невозможно исправить на другом. На этапе претрейна ИИ потребляет полезные знания, поэтому разработчикам необходимо правильно набирать их в общий массив — датасет. Обучать модель заново с каждым изменением датасета — слишком трудозатратный и недешёвый процесс. Поэтому переобучение производится, когда накапливается определённая критическая масса обновлений датасета.

Есть и другая проблема: обновлённый датасет может не улучшить, а ухудшить качество работы модели, и контролировать это вручную тоже крайне сложно, потому что чем выше качество датасета, тем труднее обнаруживать его проблемы. Данный процесс решили автоматизировать, производя тестовое обучение маленьких, быстрых моделей, разные версии которых сравниваются по качеству работы. При этом маленькая модель не всегда в полной мере отражает качество большой, поэтому приходится пользоваться дополнительными инструментами:

  • классификатор некачественного текста помог обнаружить проблемы с кодировками, наличие лишних тегов HTML, повторы предложений и другие ошибки;
  • классификатор полезного текста помог обнаружить, отвечает ли материал на конкретный вопрос пользователя;
  • долю текстов с высокой цитируемостью увеличили;
  • долю дублей сократили до значения менее 0,5 %;
  • запустили инструмент для оценки «фактовой полноты» — претрейн обучили давать ответы на 80 % фактовых запросов, с которыми справляется поисковая служба «Яндекса».

Модель YandexGPT 2 уже интегрирована в голосового помощника «Алиса» в навыке «Давай придумаем» в «Яндекс Станциях», умных телевизорах с «Алисой», приложении «Яндекса», в «Яндекс Браузере», а также на поисковых страницах ya.ru. Разработчики модели продолжат совершенствовать датасеты для претрейна и файнтюна. В перспективе планируется внедрение обучения с подкреплением на основе отзывов людей (RLHF — Reinforcement Learning from Human Feedback). Нейросеть появится и в других сервисах «Яндекса», где она может оказаться полезной.


window-new
Soft
Hard
Тренды 🔥