Сегодня 24 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Sony закроет новую студию режиссёра Call of Duty: Black Ops 3 спустя год после открытия 9 мин.
Следующая Payday оказалась эксклюзивом VR — первый трейлер и подробности Payday: Aces High 55 мин.
В России впервые за два года оштрафовали провайдера за обход блокировки YouTube 3 ч.
Разработчик Dead by Daylight продолжает скупать хорроры — собственностью Behaviour Interactive теперь стала 7 Days to Die 3 ч.
Epic Games уволит тысячу сотрудников, потому что Fortnite уже не приносит прежних денег 4 ч.
Nvidia выпустила драйвер GeForce с оптимизациями для свежих игр с DLSS, RT и Reflex 4 ч.
В Spotify появилась функция SongDNA, которая раскроет подробности создания треков 4 ч.
Microsoft разгрузила Мустафу Сулеймана, чтобы он в полную силу занялся суперинтеллектом 5 ч.
Google Gemini научится создавать цифровых двойников пользователям, но только по их поручению 5 ч.
Миллиарды убийств и миллионы поглаженных кошек: Ubisoft раскрыла статистику игроков Assassin’s Creed Shadows за первый год с релиза 5 ч.
Представлен смартфон OnePlus 15T с чипом Snapdragon 8 Elite Gen 5 и батареей на 7500 мА·ч за $625 3 ч.
Российские космонавты вручную пристыковали грузовой «Прогресс МС-33» к МКС 3 ч.
Broadcom пожаловалась на ограничения поставок чипов и указала на узкое место — мощности TSMC 4 ч.
Samsung догоняет TSMC: выход годных 2-нм чипов подскочил втрое и превысил 60 % 4 ч.
Дефицит памяти убил портативную приставку Ayaneo Next 2: продажи остановлены из-за влетевшей себестоимости 4 ч.
Тревожные сигналы от OnePlus — глава индийского подразделения лишился работы при «реструктуризации глобального бизнеса» 4 ч.
«За пределами EUV»: Lace Lithography готовит литографию на атомах гелия с разрешением 0,1 нм 4 ч.
SilverStone выпустила корпус FARA 314 с интерьером 20-летней давности и поддержкой оптических приводов 5 ч.
CIX анонсировала Arm-процессоры ClawCore, «заточенные» под OpenClaw 6 ч.
Alibaba представила XuanTie C950 — самый мощный процессор на RISC-V 6 ч.