Сегодня 18 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google выпустил вторую бету Android 15 с «Личным пространством», предиктивным «Назад» и множеством других нововведений 3 ч.
Новая статья: Animal Well — колодец, из которого не хочется вылезать. Рецензия 3 ч.
В России готовы взяться за борьбу с серым импортом видеоигр 4 ч.
Microsoft начала веерные остановки подписок на свои облачные продукты для российских корпоративных клиентов 4 ч.
Лучше поздно, чем никогда: Arkane Austin всё-таки выпустит финальное обновление Redfall 5 ч.
МТС открыла магистратуру по искусственному интеллекту в Высшей школе экономики 7 ч.
Sony пригрозила 700 компаниям судом за несанкционированное использование музыки для обучения ИИ 7 ч.
Ubisoft отреагировала на слухи о требованиях Assassin's Creed Shadows к постоянному онлайн-подключению 8 ч.
Следующая Call of Duty на старте продаж станет доступна в Game Pass 9 ч.
Intel выпустила видеодрайвер с поддержкой Ghost of Tsushima, Senua’s Saga: Hellblade II, Wuthering Waves и XDefiant 10 ч.
Слухи: Apple готовит сверхтонкий iPhone 17 — он выйдет в 2025 году и будет дороже iPhone 17 Pro Max 35 мин.
Крупнейший в России оператор ЦОД и облачных услуг «РТК-ЦОД» готовится к IPO 6 ч.
Palit представит на Computex видеокарту с водоблоком и воздушной системой охлаждения 7 ч.
Роборуки от MIT помогут астронавтам NASA встать после падения на Луне 7 ч.
Xiaomi представила смартфон среднего уровня Redmi Note 13R — он почти идентичен Redmi Note 12R 7 ч.
AT&T и AST SpaceMobile обеспечат спутниковой связью обычные смартфоны сначала в США, а после — по всей Земле 7 ч.
TSMC будет выпускать основания для стеков HBM4 по 12- и 5-нм техпроцессам 9 ч.
LG свернула производство рулонных телевизоров Signature OLED R 10 ч.
Производитель микроэлектроники «Элемент» выйдет на биржу до конца мая — это позволит привлечь до 15 млрд рублей на развитие 10 ч.
Раскрыта примерная цена российского электромобиля «Атом» 10 ч.