Сегодня 05 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В DeepSeek придумали новый способ экономить ресурсы при обучении ИИ

Китайская DeepSeek проводила 2025 год публикацией материала, в котором предлагается переосмыслить фундаментальную архитектуру, используемую при обучении базовых моделей искусственного интеллекта. Одним из авторов работы выступил глава компании Лян Вэньфэн (Liang Wenfeng).

 Источник изображения: Solen Feyissa / unsplash.com

Источник изображения: Solen Feyissa / unsplash.com

DeepSeek предложила метод под названием «гиперсвязи с ограничением на многообразие» (Manifold-Constrained Hyper-Connections — mHC). Этот метод помогает повысить экономическую эффективность моделей и даёт им возможность не отставать от конкурирующих американских решений, разработчики которых располагают доступом к значительным вычислительным ресурсам. Опубликованная DeepSeek научная работа отражает сложившуюся в Китае открытую и основанную на взаимопомощи культуру разработчиков ИИ, которые публикуют значительную долю своих исследований в открытом доступе. Статьи DeepSeek также могут указывать на инженерные решения, которые компания использует в готовящихся к выпуску моделях.

Группа из 19 исследователей компании отметила, что метод mHC тестировался на моделях с 3 млрд, 9 млрд и 27 млрд параметров, и его использование не дало существенного увеличения вычислительной нагрузки по сравнению с традиционным методом гиперсвязей (Hyper-Connections — HC). Базовый метод гиперсвязей в сентябре 2024 года предложили исследователи ByteDance в качестве модификации ResNet (Residual Networks) — доминирующей архитектуры глубокого обучения, которую ещё в 2015 году представили учёные Microsoft Research Asia.

ResNet позволяет производить обучения глубоких нейросетей таким образом, чтобы ключевая информация (остаточные данные) сохранялась при увеличении числа слоёв. Эта архитектура используется при обучении моделей OpenAI GPT и Google DeepMind AlphaFold, и у неё есть важное ограничение: проходя через слои нейросети, обучающий сигнал может вырождаться в универсальное представление, одинаковое для всех слоёв, то есть рискует оказаться малоинформативным. Гиперсвязи успешно решают эту проблему, расширяя поток остаточных данных и повышая сложность нейросети «без изменения вычислительной нагрузки у отдельных блоков», но при этом, указывают в DeepSeek, растёт нагрузка на память, и это мешает масштабировать данную архитектуру при обучении больших моделей.

Чтобы решить и эту проблему, DeepSeek предлагает метод mHC, который «поможет устранить существующие ограничения и в перспективе откроет новые пути эволюции фундаментальных архитектур нового поколения». Публикуемые компанией научные работы часто указывают на техническое направление, лежащее в основе последующих моделей, говорят эксперты. Новую крупную модель DeepSeek, как ожидается, может представить в середине февраля.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Олдскульный шутер Starship Troopers: Ultimate Bug War позволит стать арахнидом — 13 минут геймплея в режиме жуков 10 мин.
Ни в интернет выйти, ни Doom запустить: созданная ИИ операционная система Vib-OS оказалась жалкой пародией на ОС 25 мин.
Apple Music начнёт помечать созданные с помощью ИИ композиции 26 мин.
Google начала помечать Android-приложения с высоким расходом батареи 35 мин.
PlayStation и Xbox раскрыли дату выхода паранормального хоррора The Occultist до официального анонса 2 ч.
Разработчиков MindsEye накрыла ещё одна волна увольнений — во всём виноват «организованный шпионаж и корпоративный саботаж» 2 ч.
Тим Суини согласился не критиковать Google до 2032 года 4 ч.
Дефицит памяти поможет Broadcom подзаработать, но не так, как вы подумали 5 ч.
Геймплей антигравитационной гонки AGX GP от разработчика-одиночки заинтриговал фанатов F-Zero и Wipeout 6 ч.
Оружие для взлома iPhone, созданное для властей США, утекло к хакерам 7 ч.
Foxconn похвалилась ростом выручки на 22 % в этом году благодаря ИИ и Nvidia 11 мин.
Honor представила первый смартфон 600-й серии, не дожидаясь глобального запуска предыдущего семейства 23 мин.
Infinix представила смартфон Note 60 Ultra с дизайном от Pininfarina 34 мин.
В ближайшие годы Broadcom не ожидает конкуренции от ИИ-компаний в разработке чипов 3 ч.
Аналитики объяснили, как Apple ворвалась в сегмент доступных ноутбуков во время кризиса памяти 3 ч.
Realme представила смартфон с батареей на 10 001 мА·ч за $305 — Narzo Power 5G 3 ч.
TCL представила двухрежимный 31,5-дюймовый OLED-монитор с 4K@240 Гц и 1080p@480 Гц 3 ч.
Мировые поставки экранов для смартфонов в 2026 году сократятся на 7,3 % — виноват снова дефицит памяти 4 ч.
TCL представила 27P2A Ultra — первый в мире Mini LED-монитор с частотой обновления до 1040 Гц 4 ч.
Новый провал японской космической программы: малая ракета Kairos взорвалась на старте в третий раз подряд 4 ч.