Сегодня 24 февраля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
«Такая же грандиозная, увлекательная и красивая, какой вы её помните»: скриншоты, подробности и сроки выхода Age of Mythology: Retold 2 ч.
Новая статья: Banishers: Ghosts of New Eden — изгнатели дьявола. Рецензия 3 ч.
Хидетака Миядзаки встал на защиту Dark Souls 2 — самой нелюбимой фанатами игры серии 4 ч.
«Этот день настал»: культовый российский квест Sublustrum получит трёхмерный ремейк 5 ч.
Паркурный экшен Vasya Run: Ghetto Gopnik расскажет об уличном художнике посреди инопланетного вторжения — первый трейлер и подробности 7 ч.
Warner Bros. признала релиз Suicide Squad: Kill the Justice League провалом 8 ч.
Threads тестирует возможность сохранять черновики и делать фото в приложении 8 ч.
Вирус-вымогатель LockBit стали распространять через уязвимость в ПО для удалённого доступа ConnectWise 8 ч.
Как пополнять кошелёк Steam в России после краха QIWI — семь рабочих способов 10 ч.
Число высококритичных атак на российские компании выросло более чем в три раза 12 ч.
Под новые санкции США попали крупные российские операторы ЦОД, а также разработчики Astra Linux и «РЕД ОС» 53 мин.
Colorfire выпустила яркий ноутбук Meow R15 на базе Ryzen 7 8845HS и GeForce RTX 4070 5 ч.
NVIDIA теперь стоит дороже $2 трлн — она подорожала вдвое менее чем за год 6 ч.
Senao Networks выпустила 25GbE-адаптеры SX904 SmartNIC на базе Xeon D 7 ч.
Мировой рынок SSD сокращается в штуках, но растёт в плане ёмкости, а NVMe-накопители показали резкий рост 7 ч.
Microsoft переманила ответственного за аппаратные решения облака AWS 7 ч.
Австралийский суперкомпьютерный центр внедрит суперчипы NVIDIA Grace Hopper для квантовых исследований 8 ч.
Meta ищет в Индии и США специалистов для разработки ИИ-ускорителей и SoC для дата-центров 8 ч.
ИИ-ускорители нового поколения Blackwell будут в дефиците, предупредила NVIDIA 8 ч.
ЕС запретил поставлять в Россию процессоры, трансформаторы, смартфоны и множество другой электроники 8 ч.