Сегодня 16 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Парусная лодка, собаки и северные красоты: приключение Will: Follow The Light выйдет 28 апреля 18 ч.
Google не исключает появление рекламы в Gemini 19 ч.
ByteDance отложила глобальный запуск ИИ-генератора видео Seedance 2.0 из-за проблем с авторскими правами 24 ч.
Пятая часть австралийских подростков сохранила доступ к социальным сетям после их официального запрета 24 ч.
Новая статья: Docked — классический немецкий симулятор, только не от немцев. Рецензия 15-03 00:02
Новая статья: Gamesblender № 767: следующая Xbox, новые процессоры Intel, суд Nintendo и США, инфляция в Fortnite 14-03 23:39
Карточный роглайк Slay of the Spire 2 разошёлся тиражом в 3 млн копий — разработчики спешно готовят для него новый контент 14-03 20:36
Хакеры начали заполонять GitHub проектами с «невидимым» вредоносным кодом 14-03 13:23
Игры для ПК избавятся от компиляции шейдеров — Microsoft повсеместно распространит ASD на Windows 14-03 13:12
Группа ИИ-агентов взломала базу данных несуществующей компании, хотя их об этом не просили 14-03 12:36
Samsung опасается падения спроса на память с 2028 года 2 ч.
Гиперскейлеры и разработчики чипов создали консорциум OCI MSA для внедрения масштабируемого оптического интерконнекта для ИИ 7 ч.
Новая статья: Гид по выбору OLED-монитора в 2026 году: эволюция в деталях 7 ч.
Оригинальную Xbox One 2013 года наконец удалось взломать — ключ в скачках напряжения 9 ч.
Китайская Hygon увеличила выручку благодаря высокому спросу на отечественные high-end чипы 9 ч.
В Мособлдуме предупредили о возможных сбоях связи в Подмосковье 20 ч.
Microsoft ведёт переговоры об аренде мощностей в техасском кампусе Stargate на сотни мегаватт 20 ч.
GigaDevice представила чипы SPI NOR Flash серии GD25UF для периферийных и ИИ-устройств 20 ч.
Выпуск ИИ-чипов DeepX DX-M2 отложен из-за проблем у Tesla 20 ч.
Бактерии научили вырабатывать электричество при обнаружении опасных веществ — для этого их «заключили под стражу» 14-03 22:23