Сегодня 30 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Программное обеспечение

Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat

⇣ Содержание

Наш интерес к отечественным генеративным ИИ-моделям YandexGPT и GigaChat обусловлен несколькими факторами. Во-первых, на данный момент это два крупнейших проекта в сфере искусственного интеллекта на российском рынке, которые стартовали примерно в одно и то же время, активно развиваются и совершенствуются разработчиками. Во-вторых, по сравнению с зарубежными решениями они не испытывают трудностей с русским языком и по ряду характеристик не уступают иностранным аналогам. И наконец, YandexGPT и GigaChat доступны широкой аудитории в различных вариантах без ограничений — этим мы и воспользовались для сравнительного тестирования продуктов.

По данным поиска «Яндекса», с начала 2022 года интерес аудитории Рунета к нейросетям вырос более чем в пятнадцать раз (источник изображения: сервис «Нейростат», ya.ru/ai/stat)

#Технические аспекты

Для начала — немного справочной информации о том, что представляет собой каждая из рассматриваемых в обзоре ИИ-моделей.

YandexGPT. Нейросеть семейства Generative Pretrained Transformer (GPT) от компании «Яндекс». Впервые была выпущена в мае 2023 года в составе виртуального ассистента «Алиса» и впоследствии нашла применение во многих сервисах «Яндекса». Обучение YandexGPT производилось в два этапа. Сначала были использованы общедоступные тексты — материалы книг, сайтов, статей, отобранные с помощью поисковых технологий «Яндекса». Затем нейросеть была дообучена на сотнях тысяч примеров содержательных и хорошо написанных ответов, для сбора и подготовки которых компания «Яндекс» задействовала технологии краудсорсинга и команду ИИ-тренеров.

В настоящий момент представлено третье поколение YandexGPT. По заверениям разработчиков, новая генеративная нейросеть лучше обрабатывает инструкции с несколькими условиями, корректнее работает с фактами, даёт более точные и полные ответы, допускает меньше стилистических ошибок и по качеству работы в некоторых случаях превосходит зарубежные модели Llama-2 70B и ChatGPT-3.5 Turbo. Помимо «Алисы», YandexGPT интегрирована в поиск и мобильные приложения «Яндекса», в «Яндекс Браузер», «Яндекс Станцию» и прочие продукты компании. Для обучения нейросети используются суперкомпьютеры «Яндекса».

GigaChat. Разработка «Сбера», анонс которой состоялся в апреле 2023 года. Архитектура GigaChat основана на нейросетевом ансамбле NeONKA (NEural Omnimodal Network with Knowledge-Awareness), включающем различные ИИ-модели, в числе которых — RuGPT-3 для работы с текстами и Kandinsky 3.1 для генерации изображений. Взаимодействовать с GigaChat можно посредством браузера, а также ботов в мессенджере Telegram и социальной сети «ВКонтакте». Кроме того, сервис доступен в умных устройствах «Сбера» и мобильном приложении «Салют» на Android.

В развитии GigaChat и доработках положенных в его основу моделей задействованы команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI и ряда отраслевых экспертов, привлечённых для передачи GigaChat различных предметных знаний, настройки сервиса на корректное исполнение инструкций и точность. Обучение ИИ-моделей осуществляется на суперкомпьютере Christofari Neo.

#Сравнительные тесты

Для оценочных испытаний моделей YandexGPT и GigaChat нами были использованы построенные на их основе веб-сервисы a.ya.ru («Алиса») и developers.sber.ru/portal/products/gigachat. В каждом из перечисленных ниже сценариев применялся одинаковый запрос для разных сервисов, результат обработки которого оценивался по пятибалльной шкале с учётом критериев достоверности, полноты, точности и актуальности генерируемых искусственным интеллектом данных и соблюдения этических норм.

Работа в режиме «вопрос-ответ». Сильной стороной современных генеративных нейронных сетей является внушительная база знаний, позволяющая им ориентироваться в любых сферах человеческой деятельности и за считаные секунды находить ответ практически на любой вопрос. YandexGPT с GigaChat не стали исключением из правил и на наши контрольные вопросы «Какова протяжённость Байкало-Амурской магистрали?», «Где производили самолёт Ту-144?» ответили без ошибок. При этом сервис «Сбера» выдал развёрнутые ответы, а «Алиса» ограничилась скупыми фразами.

 Здесь и далее для просмотра полноразмерных изображений кликните мышью

Здесь и далее для просмотра полноразмерных изображений кликните мышью

С эрудицией у отечественных ИИ-разработок тоже порядок: обе сумели вжиться в роль знатоков интеллектуальной телевизионной игры «Что? Где? Когда?» и дали правильный ответ на взятый нами наугад вопрос, который был задан телезрителем в одном из эфиров передачи. Вопрос звучал так: «В одном чёрном ящике находится нечто прекрасное и живое, другом — нечто прекрасное, но мёртвое. Мёртвое, которое заменяло это живое в домах голландцев XVII века. Что в чёрных ящиках?» О том, что речь идёт о живых цветах и натюрморте, догадались оба сервиса, при этом GigaChat выдал более подробный ответ.

А вот с каверзными вопросами вроде «Почему Пушкин не любил смотреть телевизор?» и «Какой модели был смартфон у Льва Толстого?» не всё вышло так гладко. GigaChat сориентировался во временных рамках, обнаружил нестыковки, включил логику и ответил верно. «Алиса» же правильно ответила только на второй вопрос и не заметила подвоха в первом.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация развёрнутых ответов. Данный сценарий, как правило, актуален в обстоятельствах, связанных с решением бытовых проблем и повседневных задач, которые требуют подробных инструкций и пояснений по принципу «здесь и сейчас». Это могут быть случаи, связанные с устранением сбоев Windows, удалением вирусов с компьютера, самостоятельным ремонтом внезапно переставшей работать техники, приготовлением блюд из имеющихся на руках продуктов и прочими жизненными ситуациями. Мы смоделировали одну из них и попросили искусственный интеллект помочь с устранением критической ошибки Windows Kernel Power. Оба сервиса справились с заданием, однако «Алиса», как обычно, оказалась скупа на слова, а GigaChat, напротив, выдал наиболее подробную инструкцию с перечислением возможных причин возникновения ошибки и предупреждением о важности создания резервных копий данных.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация текстов. Ещё один часто используемый сценарий при работе с интеллектуальными чат-ботами, электронный разум которых способен выдавать на-гора тексты всевозможной тематической направленности, будь то сочинения, стихотворения, сказки, поздравления, статьи, деловые письма, курсовые работы, сценарии для мероприятий, резюме для приёма на работу и многое другое, что может взбрести в голову.

Вот так «Алиса» и GigaChat отреагировали на предложение придумать текст про отечественный автомобиль Lada Vesta для рекламного проспекта:

А так откликнулись на просьбу сочинить оригинальное поздравление с днём рождения:

В целом неплохо, но отчётливо видно, что полёт фантазии у ИИ-сервисов находится примерно на одном уровне, и в данной тестовой дисциплине у них явный паритет.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 5 баллов.

Краткий пересказ содержимого веб-страниц. Анализировать и конспектировать размещённые в глобальной сети объёмные текстовые материалы умеет только сервис «Яндекса» — чат-бот «Сбера» честно признался, что лишён подключения к интернету и умеет работать только с загружаемыми вручную текстовыми данными, а также с документами форматов TXT (объёмом до 200 кбайт) и PDF (до 4 Мбайт). По части взаимодействия с сетевыми ресурсами в режиме онлайн GigaChat вчистую проигрывает конкуренту.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Перевод текстов. С переводом англоязычных документов на русский язык ни у «Алисы», ни у GigaChat проблем не возникло. Однако использование других направлений перевода показало полную несостоятельность сервиса «Яндекса»: выяснилось, что его знаний хватает только для перевода отдельных слов и небольших фраз. Это довольно странно, так как в активе компании имеется построенная на базе YandexGPT система автоматического перевода, знающая сотню языков и способная дать фору конкурирующим решениям. Возможно, в будущем в «Алису» интегрируют полноценный переводчик. Пока же преимущество на стороне GigaChat, способного переводить тексты в любых направлениях.

Итоговые оценки: YandexGPT — 2 балла, GigaChat — 5 баллов.

Решение математических уравнений. Если с переводом текстов на иностранные языки перевес сил был на стороне чат-бота GigaChat, то с решением алгебраических и прочих уравнений дело обстоит ровно наоборот. В нашем случае нейросеть «Алисы» в два счёта разобрала на составляющие уравнение x3–3x–2=0 и привела развёрнутое решение с точным ответом. Сервис «Сбера» тоже попытался блеснуть интеллектом, сгенерировал огромную «простыню» с математическими выкладками и умозаключениями, но правильного ответа на задачу уровня 10 класса так и не нашёл. Бывает.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Создание изображений по текстовому описанию. Функция, ставшая своеобразным стандартом де-факто в индустрии генеративного искусственного интеллекта. В GigaChat благодаря интеграции чат-бота с нейросетью Kandinsky она действительно работает и генерирует пусть далёкие от совершенства, но всё же соответствующие запросу пользователя картинки. YandexGPT такого делать не умеет, и в этом нет ничего удивительного: данная ИИ-модель «заточена» на работу с текстами, а для рисования в арсенале «Яндекса» предусмотрена отдельная нейросеть Yandex AI Rendering Technology (YandexART), которая интегрирована в «Шедеврум» и прочие сервисы компании, за исключением — увы! — «Алисы». Возможно, в будущем разработчики «Яндекса» привьют своему виртуальному ассистенту навыки рисования, пока же в данной дисциплине лидирует чат-бот «Сбера».

Итоговые оценки: YandexGPT — 1 балл, GigaChat — 4 балла.

Работа с актуальными сведениями. Номер один в этой категории — безоговорочно, ИИ-сервис «Алиса». Будучи подключённым к ресурсам глобальной сети, он умеет работать с новостными источниками (выбираются отдельно в настройках чат-бота), информировать о курсе валют и стоимости ценных бумаг, получать сведения о прогнозе погоды, стоимости тех или иных товаров в онлайн-маркете «Яндекса» и многое другое. GigaChat лишён доступа к интернету и оперировать актуальными данными не может.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Беседа с пользователем. Оба сервиса — и YandexGPT, и GigaChat — могут выступать в качестве виртуальных собеседников для душевных разговоров за чашкой чая. Достаточно отправить любому из чат-ботов фразу «Давай поболтаем» — и он автоматически подключится к беседе на отвлечённые темы. Поддерживаются диалоги с учётом контекста предыдущих сообщений и возможность задавать уточняющие вопросы по ходу разговора — это позволяет общаться с искусственным интеллектом, как с человеком, который следит за нитью разговора. В нашем случае GigaChat был более открыт, разговорчив и общителен, а «Алиса», как обычно, отвечала короткими и сухими фразами и не располагала к общению.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

#Подводим итоги

Средний результат у нас получился следующим: YandexGPT в тестовых дисциплинах набрал 3,8 балла, GigaChat — 3,6 балла. Налицо паритет двух ИИ-сервисов — в чём-то схожих по концепции и реализованным функциональным возможностям, в чём-то кардинальным образом разнящихся друг с другом.

Сильными сторонами разработки «Яндекса» является умение черпать свежую информацию из сетевых источников, генерировать чёткие и выверенные ответы на запросы пользователя. В то же время «Алиса» зачастую немногословна, откровенно слаба в знании иностранных языков и уж никак не может претендовать на лавры маститого художника (точнее — художницы). Сервис «Сбера», в свою очередь, привлекателен своим творческим началом и привычкой докапываться до сути вещей — он общителен, даёт исчерпывающие ответы на вопросы и неплохо рисует. Однако склонен к так называемым галлюцинациям с убедительными, но полностью выдуманными ответами, что отчётливо проявляется при решении GigaChat математических задач.

Как бы то ни было, оба продукта находятся в начале пути своего развития. И нет никаких сомнений в том, что в ближайшем будущем YandexGPT и GigaChat ждут новые высоты, возможности и широкие перспективы, ключевую роль в реализации которых сыграет конкуренция, являющаяся двигателем прогресса в любой сфере, в том числе в области искусственного интеллекта.

 
 
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

window-new
Soft
Hard
Тренды 🔥
Meta без спроса заполонила свои соцсети ИИ-двойниками Тейлор Свифт, Скарлетт Йоханссон и других знаменитостей 6 ч.
Nous Research бросил вызов OpenAI — открытая модель Hermes 4 работает быстрее всех и без цензуры 7 ч.
Стартап Илона Маска обвинил бывшего сотрудника в краже секретов для OpenAI 10 ч.
xAI Илона Маска представила ИИ для программирования, который отвечает мгновенно 10 ч.
Тестирование крупного обновления Windows 11 25H2 вышло на финишный этап 12 ч.
ЕС всё же оштрафует Google за антиконкурентное поведение, но наказание будет скромным 13 ч.
Meta исправила методику обучения ИИ после скандала с неуместными разговорами с подростками 14 ч.
Кровавый геймплейный трейлер раскрыл дату выхода Bloodthief — ураганного слешера про ненасытного вампира 24 ч.
Новая статья: Inkshade — навстречу бездне. Рецензия 24 ч.
В WhatsApp экстренно закрыли опасную уязвимость, которой активно пользовались хакеры 29-08 23:19
В Китае установили самую мощную в мире ветряную турбину — её лопасти поднимаются выше Эйфелевой башни 3 ч.
В блистающих останках умирающей звезды «Джеймс Уэбб» увидел, как могла зарождаться Земля 3 ч.
MaxSun представила компактную материнскую плату с разъёмом PCIe x16 для видеокарт на изнанке 6 ч.
Realme не будет выпускать складные смартфоны, а сделает ставку на флагманы и пауэрбанки 12 ч.
Китайские учёные создали «всечастотный» чип для 6G — 100 Гбит/с почти в любых условиях 12 ч.
После утечки секретов о 2-нм техпроцессе TSMC предложила другим компаниям свою систему защиты данных 15 ч.
Intel избавилась от части обязательств перед США по «Закону о чипах» 16 ч.
Huawei объявила о полной победе над санкциями США и нацелилась на лидерство в ИИ 17 ч.
Замедление ИИ-бумa обрушило акции американских чипмейкеров 17 ч.
Dell впервые больше заработала на серверах и СХД, чем на ПК и ноутбуках 24 ч.