Сегодня 17 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В DeepSeek придумали новый способ экономить ресурсы при обучении ИИ

Китайская DeepSeek проводила 2025 год публикацией материала, в котором предлагается переосмыслить фундаментальную архитектуру, используемую при обучении базовых моделей искусственного интеллекта. Одним из авторов работы выступил глава компании Лян Вэньфэн (Liang Wenfeng).

 Источник изображения: Solen Feyissa / unsplash.com

Источник изображения: Solen Feyissa / unsplash.com

DeepSeek предложила метод под названием «гиперсвязи с ограничением на многообразие» (Manifold-Constrained Hyper-Connections — mHC). Этот метод помогает повысить экономическую эффективность моделей и даёт им возможность не отставать от конкурирующих американских решений, разработчики которых располагают доступом к значительным вычислительным ресурсам. Опубликованная DeepSeek научная работа отражает сложившуюся в Китае открытую и основанную на взаимопомощи культуру разработчиков ИИ, которые публикуют значительную долю своих исследований в открытом доступе. Статьи DeepSeek также могут указывать на инженерные решения, которые компания использует в готовящихся к выпуску моделях.

Группа из 19 исследователей компании отметила, что метод mHC тестировался на моделях с 3 млрд, 9 млрд и 27 млрд параметров, и его использование не дало существенного увеличения вычислительной нагрузки по сравнению с традиционным методом гиперсвязей (Hyper-Connections — HC). Базовый метод гиперсвязей в сентябре 2024 года предложили исследователи ByteDance в качестве модификации ResNet (Residual Networks) — доминирующей архитектуры глубокого обучения, которую ещё в 2015 году представили учёные Microsoft Research Asia.

ResNet позволяет производить обучения глубоких нейросетей таким образом, чтобы ключевая информация (остаточные данные) сохранялась при увеличении числа слоёв. Эта архитектура используется при обучении моделей OpenAI GPT и Google DeepMind AlphaFold, и у неё есть важное ограничение: проходя через слои нейросети, обучающий сигнал может вырождаться в универсальное представление, одинаковое для всех слоёв, то есть рискует оказаться малоинформативным. Гиперсвязи успешно решают эту проблему, расширяя поток остаточных данных и повышая сложность нейросети «без изменения вычислительной нагрузки у отдельных блоков», но при этом, указывают в DeepSeek, растёт нагрузка на память, и это мешает масштабировать данную архитектуру при обучении больших моделей.

Чтобы решить и эту проблему, DeepSeek предлагает метод mHC, который «поможет устранить существующие ограничения и в перспективе откроет новые пути эволюции фундаментальных архитектур нового поколения». Публикуемые компанией научные работы часто указывают на техническое направление, лежащее в основе последующих моделей, говорят эксперты. Новую крупную модель DeepSeek, как ожидается, может представить в середине февраля.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Warhammer 40,000: Space Marine 2 превзошла «даже самые смелые мечты» издателя — на защиту Империума встали 12 миллионов космодесантников 2 ч.
МТС Exolve: как ставка на self-service за год изменила рынок коммуникаций для бизнеса 2 ч.
Российскую криптобиржу Grinex взломали и украли активы на 1 млрд рублей 2 ч.
Надёжный инсайдер подтвердил дату выхода Assassin’s Creed Black Flag Resynced — Ubisoft показала неуловимый ремейк журналистам 3 ч.
ИИ-агент OpenAI Codex получил многие улучшения в новой версии 7 ч.
Нуарный ретрошутер Mouse: P.I. For Hire стартовал в Steam с рейтингом 94 % 13 ч.
Nvidia выпустила драйвер с поддержкой Pragmata, Neverness to Everness и Windrose 15 ч.
Эпичный финал: для Atomic Heart вышло масштабное сюжетное дополнение «Кровь на Хрустале» 16 ч.
Anthropic представила флагманскую ИИ-модель Opus 4.7 — она стала «самостоятельнее» и лучше в сложных задачах 16 ч.
Google с помощью ИИ заблокировала 8,3 млрд рекламных объявлений за 2025 год — на 60 % больше, чем годом ранее 17 ч.
Xiaomi представила телевизоры Redmi TV A Pro 2026 — старшая 75" модель стоит меньше $500 2 ч.
Лояльность к iPhone превысила 96 % — пользователи Android готовы менять бренд почти в четыре раза чаще 2 ч.
Ветеран Apple, который выводил на рынок iPod, Watch и AirPods, уходит из компании после 31 года работы 2 ч.
Смартфон Huawei Mate 80 Pro с продвинутыми камерами и смарт-часы Watch GT Runner 2 для любителей бега поступили в продажу в России 2 ч.
Одноплатный компьютер Orange Pi Zero 3W в формате Raspberry Pi Zero получил чип Allwinner A733 и до 16 Гбайт ОЗУ 3 ч.
Intel наняла руководителя для своего контрактного бизнеса с опытом работы в Samsung 3 ч.
Tesla уже ищет на Тайване инженеров для своего американского мегазавода Terafab по выпуску чипов 4 ч.
OnePlus покинет ключевые рынки и сосредоточится на продажах в Китае 4 ч.
Акции ASML и TSMC упали в цене на фоне превосходной квартальной отчётности 5 ч.
Новая статья: Обзор Dreame X60 Ultra Complete: 4 × 4 в мире роботов-уборщиков 12 ч.