Сегодня 21 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Sega случайно раскрыла актуальные продажи последних Persona, Yakuza, Sonic и Total War, а Persona 4 Revival придётся подождать 31 мин.
Для достижения своих целей продвинутые модели ИИ будут хитрить, обманывать и воровать 3 ч.
Microsoft начала масштабное удаление устаревших драйверов из «Центра обновления Windows» 4 ч.
Apple тоже интересовалась покупкой ИИ-стартапа Perplexity 4 ч.
Samsung запустит собственную систему оповещения о землетрясениях с функциями, которых нет у Google 6 ч.
Инвесторы поверили в бывшего топ-менеджера OpenAI: Мурати привлекла $2 млрд без единого продукта 6 ч.
Meta до сделки с Scale AI присматривалась к Perplexity 6 ч.
Новая статья: The Alters — сам себе экипаж. Рецензия 12 ч.
Apple похоронила «убийцу USB» — в macOS 26 Tahoe исчезла поддержка интерфейса FireWire 13 ч.
Душевный шутер Chains of Lukomorye отправит солдата Первой мировой войны в царство славянских сказок спасать потерянную любовь 14 ч.
Через 10 лет ИИ-ускорители получат терабайты HBM и будут потреблять 15 кВт — это изменит подход к проектированию, питанию и охлаждению ЦОД 3 ч.
В роботакси Tesla нельзя будет попасть просто с улицы, а страхующий оператор всегда будет сидеть в кресле переднего пассажира 4 ч.
SK Hynix первой предложит память HBM4E и уже заключила контракт с Nvidia и Microsoft 6 ч.
Основатель SoftBank предложил создать в США хаб Crystal Land стоимостью $1 трлн для развития ИИ и роботов 10 ч.
Акции производителей чипов упали из-за антикитайских угроз властей США в адрес TSMC, Samsung и SK Hynix 11 ч.
ИИ-кластер Huawei CloudMatrix 384 обошёл решения Nvidia в тестах с DeepSeek R1 12 ч.
Госзакупки зарубежных СХД и серверов упали более чем вдвое 13 ч.
«Мам, мне для учёбы», — Apple сделала 81-страничную презентацию, чтобы убеждать родителей купить Mac 13 ч.
США запретят TSMC, Samsung и SK Hynix использовать американское оборудование на китайских заводах 14 ч.
Tecno сообщила о глобальном старте продаж смартфонов серии Pova 7 14 ч.