Сегодня 07 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
OpenAI отложила запуск «режима для взрослых» в ChatGPT — нужно решить проблему определения возраста 2 ч.
Разработчик доверил Claude Code управление AWS — ИИ полностью удалил два сайта и базу данных 5 ч.
Mozilla готовит масштабный редизайн Firefox с кодовым именем Nova — вот как это будет выглядеть 7 ч.
Энтузиаст превратил Sony PlayStation 5 в игровой ПК под Linux и запустил на ней GTA V 11 ч.
X начала тестировать «рекламу без рекламы» — рекомендации брендов прямо под постами 11 ч.
Anthropic запустила  маркетплейс приложений, построенных на её ИИ-моделях — по примеру Amazon 17 ч.
OpenAI представила ИИ-агента Codex Security, который сам находит и закрывает «дыры» в ПО 17 ч.
Новая статья: Resident Evil Requiem — два шага вперёд, три назад. Рецензия 24 ч.
Nintendo подала в суд на правительство США и потребовала возместить ущерб от пошлин Трампа — «с процентами» 06-03 22:50
Брутфорс уходит в прошлое: Cloudflare назвала ИИ и дипфейки главной проблемой года 06-03 22:04
Oracle и OpenAI передумали расширять флагманский ИИ ЦОД Stargate в Техасе, чем может воспользоваться Meta 40 мин.
640 Кбайт хватит для ИИ: микроконтроллеры STM32U3B5/C5 со сверхнизким энергопотреблением могут работать даже без батарей 2 ч.
Хранение данных на ДНК в дата-центрах уже в текущем году — французы готовы сделать фантастику реальностью 2 ч.
Китай впервые перекрыл все новые потребности в электроэнергии силами возобновляемых источников 5 ч.
В России создали прототип квантовой оперативной памяти — для компьютеров, радаров и телескопов невероятной чувствительности 9 ч.
Спутник «Экспресс-АТ1» объявлен потерянным после загадочной аварии — тысячи россиян остались без «Триколора» 9 ч.
Valve отложила Steam Machine: вместо запуска в «начале 2026 года» теперь расплывчатое «надеемся начать поставки в 2026-м» 12 ч.
Китайские производители чипов призвали власти создать «китайскую ASML» 12 ч.
Анонсирован смартфон Realme C83 5G с батареей на 7000 мА·ч, прочным корпусом и ценой от $145 12 ч.
BYD представила электромобиль Denza Z9 GT с рекордным запасом хода в 1036 км 16 ч.