Сегодня 11 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft исправила баг Windows 11, из-за которого ПК самопроизвольно просыпались и разряжались 9 мин.
AMD выпустила драйвер с поддержкой Yakuza Kiwami 3 и Nioh 3 22 мин.
РКН перестал замедлять WhatsApp и приступил к полной блокировке 3 ч.
Олдскульный шутер Starship Troopers: Ultimate Bug War от создателей Warhammer 40,000: Boltgun получил дату выхода и демоверсию в Steam 3 ч.
В Steam вышла демоверсия киберпанкового боевика Replaced — первые игроки в восторге 4 ч.
T-Mobile запустит ИИ-перевод телефонных звонков в реальном времени на полсотни языков — без дополнительных приложений 4 ч.
Китайская Zhipu готовит ИИ-модель, которая сможет потягаться с DeepSeek 5 ч.
Система расследования инцидентов Staffcop Enterprise дополнилась файловым сканером и функцией перехвата данных в Max 6 ч.
Разработчики «Войны Миров: Сибирь» вышли из состава 1C Game Studios и продолжат делать игру в независимой студии 6 ч.
ИИ-модели Google стали отклонять запросы с упоминаниями персонажей Disney 6 ч.
Honor представила X6d — переиздание Play 60A с новой камерой и старым железом 2 ч.
HP теперь предлагает игровые ноутбуки по подписке — от $50 в месяц, но без права выкупа 3 ч.
Шестьдесят лет назад «Луна-9» первой в истории мягко села на Луну — теперь учёные ищут её заново 4 ч.
Ноль сопротивления и в 10 раз компактнее: Microsoft готовит сверхпроводниковую революцию для дата-центров 4 ч.
Память душит рынок: выпуск смартфонов в 2026 году может рухнуть на 10–15 % 4 ч.
Sony выпустит последние Blu-ray-рекордеры в этом месяце — но выпуск Blu-ray-плееров пока продолжится 4 ч.
Канадцы собрали «копеечный» аналог квантового компьютера для решения задач оптимизации 6 ч.
Microsoft изучает использование сверхпроводников для питания ЦОД 7 ч.
All-Flash СХД IBM FlashSystem 5600, 7600 и 9600 получили автономное ИИ-управление 7 ч.
Каждый четвёртый активный смартфон в мире в 2025 году — это какой-нибудь iPhone 8 ч.