Сегодня 03 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Датамайнер: Half-Life 3 станет «самой оптимизированной игрой, которую когда-либо выпускала Valve» 41 мин.
Snowflake теперь будет сотрудничать с OpenAI напрямую, минуя Microsoft 3 ч.
Правоохранители нагрянули с обыском в парижский офис соцсети X и вызвали Илона Маска на допрос 3 ч.
Adobe объявила о закрытии Animate — 2D-анимация проиграла в неравной битве ИИ 3 ч.
Главу Larian вынудили поделиться подробностями концовки новой Divinity 4 ч.
Nintendo выдала даты выхода трёх дополнений к кооперативному хоррору Reanimal от авторов Little Nightmares 5 ч.
Визуальная новелла в жанре психологического хоррора Slay the Princess достигла вершины продаж, о которой разработчики не могли и мечтать 5 ч.
Объём слитых в интернет данных россиян взлетел почти на 70 % в прошлом году 6 ч.
Онлайн-кинотеатры в России нарастили аудиторию до 75 млн зрителей и теперь думают над повышением цен 7 ч.
xAI выпустила Grok Imagine 1.0 с поддержкой создания 10-секундных видео в улучшенном разрешении 13 ч.
OpenAI не устроили чипы NVIDIA для инференса, теперь она ищет альтернативы 58 мин.
Apple захватила 69 % американского рынка смартфонов — у Samsung в пять раз меньше 2 ч.
Xiaomi выпустила на глобальный рынок 27-дюймовый 200-Гц FHD-монитор G27i 2026 за $157 3 ч.
«Шоковая заморозка» для серверов: китайские учёные научились охлаждать системы ИИ за 20 секунд без фреона 3 ч.
Сделка на триллион с четвертью: SpaceX приобрела xAI 3 ч.
«Байкал Электроникс» открыл свободный доступ к документации на серийный микроконтроллер Baikal-U 4 ч.
Спутник-платформа RuVDS для разработки космического ПО успешно выведен на орбиту 4 ч.
В Китае создали компактный твердотельный лазер для ранее недоступного VUV-диапазона — выиграют наука, космос и чипмейкеры 5 ч.
Intel при поддержке SoftBank готова начать выпуск альтернативы памяти HBM к 2029 году 5 ч.
Switch стала самой популярной Nintendo в истории — продано более 155 млн консолей 6 ч.