Сегодня 31 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Самое брутальное зрелище в галактике»: новый геймплейный трейлер подтвердил дату выхода безжалостного боевика Kiborg от российских разработчиков 37 мин.
Билл Гейтс хотел бы превратить Microsoft в ИИ-компанию и заработать миллиарды на «эскизных идеях» 40 мин.
«Вы объединяете мир»: в Death Stranding сыграло более 20 миллионов человек 2 ч.
«Яндекс» выпустил открытую ИИ-модель YandexGPT 5 Lite: её можно запускать на обычной рабочей станции 3 ч.
«Яндекс» выпустила ИИ-модель YandexGPT 5 Lite — она поможет ускорить IT-разработку и исследования 4 ч.
Split Fiction установила три мировых рекорда и попала в «Книгу рекордов Гиннесса» 4 ч.
Monster Hunter Wilds продолжает бить рекорды Capcom — продажи игры за месяц достигли 10 миллионов копий 5 ч.
Китайская Zhipu AI ворвалась в ИИ-гонку с бесплатным ИИ-агентом AutoGLM Rumination 5 ч.
Бренды вернули рекламу в X с минимальными бюджетами, лишь бы не разгневать Илона Маска 6 ч.
Российский футбольный союз раскрыл, когда ждать релиз отечественного аналога FIFA и EA Sports FC 6 ч.
Arm собралась руками Nvidia захватить половину рынка процессоров для дата-центров 13 мин.
Между Apple и Илоном Маском разгорелся конфликт из-за мобильной спутниковой связи 23 мин.
Доступная раскладушка Samsung Galaxy Z Flip 7 FE будет выглядеть точно как прошлогодний Z Flip 6 3 ч.
На заводе «ЦТС» в Калининградской области начали выпускать средние серверных плат 3 ч.
Qualcomm представит 2 апреля новый процессор для бюджетных флагманов — преемника Snapdragon 8s Gen 3 3 ч.
Huawei отчиталась о рухнувшей на 28 % годовой прибыли — деньги ушли на исследования и разработки 4 ч.
Zeekr анонсировала зарядные станции с рекордной мощностью в 1,2 МВт, но подходящих электромобилей пока не существует 4 ч.
Oppo раскрыла дизайн смартфонов серии Oppo Find X8 в преддверии анонса 4 ч.
Японский консорциум предложил построить плавучий ЦОД с питанием от возобновляемых источников в Иокогаме 6 ч.
Новые нормы энергоэффективности ИИ-ускорителей угрожают бизнесу NVIDIA в Китае 6 ч.