Сегодня 02 марта 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Balatro — как сделать покер ещё круче. Рецензия 8 ч.
Бета-версия нового патча для Starfield выйдет на следующей неделе — улучшения фоторежима, сканера и отслеживания миссий 13 ч.
Camelot Unchained жива — амбициозная MMORPG выйдет спустя 12 лет после триумфа на Kickstarter, но игроки этому не рады 13 ч.
No Rest for the Wicked получила 16 минут геймплея и дату выхода в раннем доступе Steam — это смесь Dark Souls и Diablo от создателей Ori 14 ч.
Steam рассекретил новую дату выхода олдскульной ролевой игры Broken Roads до официального анонса 15 ч.
Первый альтернативный магазин приложений для iPhone готов к открытию в Евросоюзе 15 ч.
Надёжный инсайдер рассказал, когда ждать Dragon Age: Dreadwolf 16 ч.
Cуд обязал NSO Group поделиться кодом шпионского ПО Pegasus с разработчиками WhatsApp 16 ч.
Лучшая версия сборника Tomb Raider I-III Remastered по ошибке вышла в Epic Games Store — разработчики объяснили, что произошло 17 ч.
Китайская Baidu пообещала компенсировать отсутствие доступа к ИИ-ускорителям NVIDIA программно 17 ч.