Сегодня 20 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek выпустила «дистиллированную» версию обновлённой ИИ-модели R1 — для работы ей хватит одной видеокарты

Китайский стартап DeepSeek представил вместе с улучшенной версией ИИ-модели R1 со способностью к рассуждению на базе 685 млрд параметров ещё одну, гораздо меньшую версию R1, созданную методом дистилляции — DeepSeek-R1-0528-Qwen3-8B. По словам разработчиков, новая версия превосходит сопоставимые по размеру модели в ряде тестов.

 Источник изображения: Solen Feyissa/unsplash.com

Источник изображения: Solen Feyissa/unsplash.com

Сообщается, что DeepSeek-R1-0528-Qwen3-8B, созданная методом дистилляции с использованием в качестве основы модели Qwen3-8B, выпущенной компанией Alibaba в мае этого года, показала лучшие результаты, чем Gemini 2.5 Flash от Google в математическом бенчмарке AIME 2025. Кроме того, DeepSeek-R1-0528-Qwen3-8B «почти соответствует» недавно представленной модели рассуждений Phi 4 Plus от Microsoft в другом тесте математических навыков — HMMT.

Хотя модели, полученные методом дистилляции, как правило, уступают полноразмерным аналогам по эффективности, они значительно менее требовательны к вычислительным ресурсам. Согласно данным облачной платформы NodeShift, для работы Qwen3-8B требуется GPU с 40–80 Гбайт оперативной памяти (например, Nvidia H100). Для сравнения, полноразмерной обновлённой версии R1 требуется около дюжины GPU с объёмом памяти 80 Гбайт каждый.

В процессе обучения модели DeepSeek-R1-0528-Qwen3-8B стартап использовал текст, сгенерированный обновлённой моделью R1, для тонкой настройки Qwen3-8B. В описании на платформе разработки ИИ Hugging Face стартап указал, что эта модель рассуждений может применяться «как для академических исследований, так и для промышленной разработки, ориентированной на модели малого масштаба».

DeepSeek-R1-0528-Qwen3-8B распространяется по разрешительной лицензии MIT, что позволяет использовать её в коммерческих целях без ограничений. Несколько приложений, включая LM Studio, уже предлагают эту модель через API.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Марк Цукерберг рассчитывает нанять компаньона одного из основателей OpenAI 2 ч.
Adobe выпустила Indigo — приложение для камеры iPhone от бывших разработчиков Google Camera 7 ч.
Трамп в третий раз отсрочил блокировку TikTok в США 9 ч.
Microsoft готова порвать с OpenAI, потому что компании не могут договориться о совместном будущем 9 ч.
Управлять данными, а не хранилищами: Pure Storage представила унифицированную облачную платформу Enterprise Data Cloud 10 ч.
На Apple подали в суд за публикацию мошеннического криптовалютного приложения в App Store 11 ч.
Death Stranding 2: On the Beach выйдет полностью на русском языке — «М.Видео-Эльдорадо» подтвердила цену игры в России 12 ч.
Крах VR-игр на консолях становится очевидным: Beat Saber перестанет получать новый контент 12 ч.
Психологический хоррор s.p.l.i.t от автора Buckshot Roulette отправит раскрывать секреты аморальной суперструктуры — дата выхода и геймплейный трейлер 12 ч.
Маск на пути к суперприложению: X запустит кошелёк и инвестиции уже в этом году 12 ч.
Tesla выведет на дороги Техаса только 10 беспилотных такси, которые будут избегать сложных участков 3 ч.
Илон Маск назвал вероятную причину недавнего взрыва Starship на стартовой площадке 3 ч.
Новая статья: Обзор смартфона IQOO Z10: не ждите разрядки 8 ч.
Новая статья: Обзор ASUS ProArt Display OLED PA32UCDM: профессиональный клон 9 ч.
Asus представила игровой монитор ROG Swift OLED PG32UCDMR с поддержкой 80-гигабитного DisplayPort 2.1a UHBR20 12 ч.
ASRock представила «турбированную» видеокарту Radeon AI Pro R9700 Creator для профессионалов 12 ч.
ИИ потребляет чудовищные объёмы энергии — экологи бьют тревогу, хотя точные цифры не знает никто 16 ч.
Экзафлопсный суперкомпьютер Fugaku Next получит Arm-процессоры Fujitsu MONAKA-X 16 ч.
Беспилотные такси в городах России появятся не раньше 2030 года 17 ч.
Здесь ЦОД с ИИ, здесь Grok'ом пахнет: экоактивисты подали в суд на xAI за использование газовых турбин для суперкомпьютера Colossus 17 ч.