Сегодня 22 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Нам нужно держать марку»: глава Larian предрёк Baldur’s Gate 3 светлое будущее и высказался о следующей игре студии 21 мин.
Gmail упростил отписку от надоедливых рассылок, собрав их все в одном месте 43 мин.
Курс биткоина превысил $90 000 впервые за шесть недель 2 ч.
UserGate обновила и расширила экосистему ИБ UserGate SUMMA и реорганизовала работу с учётом потребностей клиентов 2 ч.
Google призналась, что платит Samsung «огромные деньги» за предустановку Gemini на Galaxy 3 ч.
Windows 11 впервые установили и запустили на Apple iPad Air 3 ч.
Журналисты и блогеры готовятся разразиться подробностями и геймплеем Death Stranding 2: On the Beach — Кодзима пригласил в гости 3 ч.
«VK Видео» запустит платную подписку для отключения рекламы в видео 5 ч.
Разработчики ИИ-приложений предпочитают технологии OpenAI, но всё быстро меняется 5 ч.
«Нанософт»: уровень пиратства на рынке инженерного ПО в России вырос до 70 % 5 ч.
Астрономы обнаружили хвостатую планету, которая буквально испаряется с каждым оборотом вокруг своей звезды 2 ч.
Insta360 представила экшн-камеру X5 за $550 c простой заменой разбитых линз 3 ч.
Intel придумала разгон без потери гарантии: функция Core 200S Boost безопасно ускорит ПК на Arrow Lake, но не все 3 ч.
Казахстанский дата-центр Freedom Cloud свяжет Китай и Европу 3 ч.
«Роскосмос» рассказал, когда начнёт строить дополнительный сегмент ГЛОНАСС из 240 спутников 4 ч.
Названа самая популярная марка ноутбуков в России в этом году 4 ч.
Трёхстворчатый складной смартфон Samsung и недорогой Galaxy Z Flip FE выйдут в четвёртом квартале 4 ч.
Toshiba выпустила 24-Тбайт жёсткие диски N300 и N300 Pro на технологии CMR для работы 24/7 5 ч.
Новые игровые тесты показали пропасть в производительности между разными версиями GeForce RTX 5060 Ti 5 ч.
Грузовик SpaceX Cargo Dragon доставил на МКС рекордный объём продуктов питания 5 ч.