Сегодня 04 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
OpenAI обновила модель для стандартных ответов в ChatGPT на более прямолинейную GPT 5.3 Instant 44 мин.
Google представила Gemini 3.1 Flash-Lite — «самую быструю и экономически эффективную модель семейства» 60 мин.
Google переведёт Chrome на двухнедельный цикл выпуска обновлений 2 ч.
«МойОфис» стал доступен частным пользователям бесплатно, но с обидными ограничениями 2 ч.
Сотрудники Google и OpenAI призывают к ужесточению ограничений на использование ИИ в военных целях 2 ч.
Заряженное ностальгией музыкальное приключение Mixtape от создателей The Artful Escape не заставит себя долго ждать — дата выхода и новый трейлер 5 ч.
Разработчики амбициозного авиасимулятора «Корея. Серия Ил-2» раскрыли план на 2026 год — вылет состоится по расписанию 6 ч.
Головокружительный трейлер подтвердил дату выхода Denshattack! — безумного платформера про неподвластный гравитации поезд 7 ч.
Просыпайся, самурай: первую волну мартовских новинок Game Pass возглавила Cyberpunk 2077 8 ч.
Драйвер Nvidia 595.71 WHQL ограничил ручной разгон у GeForce RTX 50-й серии 8 ч.
Ayar Labs привлекла $500 млн инвестиций от AMD, NVIDIA, MediaTek и др. 46 мин.
Разработан инструмент для поиска дефектов нанометровых транзисторов — отладка техпроцессов пойдёт веселее 51 мин.
Новая статья: Обзор материнской платы MSI MAG X870E GAMING PLUS MAX WIFI: собираем на Zen 5 сегодня, присматриваемся к Zen 6 — завтра 57 мин.
«Байкал Электроникс» поставит компании «Реглаб» 1,5 млн чипов Baikal-U — ими заменят микропроцессоры STMicroelectronics 2 ч.
TCL заменила LCD на AMOLED в линейке смартфонов Nxtpaper, выжав флагманскую яркость без бликов 2 ч.
В США представили прообраз «жёсткого диска» на ДНК с упрощёнными процедурами записи и чтения 5 ч.
В России число базовых станций LTE растёт, а 3G — уменьшается 5 ч.
Представлены обновлённые MacBook Pro 14 и 16 — дисплеи Liquid Retina XDR, больше памяти и до 30 % быстрее 6 ч.
Apple представила MacBook Air с процессором M5, увеличенным накопителем и Wi-Fi 7 6 ч.
Apple представила 18-ядерные процессоры M5 Pro и M5 Max «с рекордной однопоточной производительностью» 7 ч.