Сегодня 25 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Код в мешке: Rockstar снабдила «дисковую» версию GTA VI для PS5 региональными ограничениями 44 мин.
Несколько лет разочарований с Destiny 2 обернулись для Bungie массовыми увольнениями, но разработчики «должны гордиться» собой 2 ч.
ИИ-модель Wildberries вошла в топ-3 русскоязычного бенчмарка MERA 2 ч.
Adobe купила разработчика ИИ для повышения качества изображений и видео Topaz Labs 2 ч.
Глава Epic Games раскритиковал Valve за «очень безответственную» политику Steam в отношении генеративного ИИ 3 ч.
Ролевой боевик Enshrouded с выживанием в волшебном мире и кооперативом на 16 человек скоро выйдет из раннего доступа — дата релиза и новый трейлер 3 ч.
Московский суд оштрафовал Apple на 500 000 рублей, но дело не в удалении VK 4 ч.
Инженерные профессии оказались наиболее устойчивы в эпоху ИИ 4 ч.
Google продолжает терять ИИ-таланты — ещё двое исследователей ушли в Anthropic 4 ч.
Китай заставил BMW, Mercedes и Volkswagen объединиться ради создания единой автомобильной ОС 6 ч.
Планшет Honor MagicPad 4 с большим OLED-экраном и Snapdragon 8 Gen 5 поступил в продажу в России за 100 тыс. рублей 25 мин.
Акции Apple упали более чем на 5 % после резкого повышения цен на MacBook и iPad 27 мин.
Эволюция гольф-кара: выходцы из Apple и Audi создали электрический багги для дорог общего пользования за $25 000 2 ч.
Французский ретейлер подшутил над Steam Machine за €1039, предложив свою Stim Machine c RX 9060 XT чуть дешевле 2 ч.
Leica выпустила 44-Мп полнокадровую камеру SL3-P за $6690 — она займёт нишу между SL3 и SL3-S 2 ч.
«Звёздный разум» заполнит орбиту: SpaceX назвала будущую миллионную группировку ИИ-спутников Starmind 4 ч.
Apple подняла цены на все Mac и iPad на $100–1300 — причина та же, что и у всех 4 ч.
Qualcomm анонсировала HBC — альтернативу HBM на базе LPDDR 5 ч.
Представлен Samsara Tracking Label — Bluetooth-наклейка для отслеживания грузов в пути 6 ч.
Около трети проектов новых ЦОД в России приостановлены 6 ч.