Сегодня 25 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
AMD выпустила систему разгона памяти EXPO 1.2 — потенциал она раскроет на Zen 6 4 ч.
Microsoft позволит бесконечно откладывать обновления Windows 11 в течение 35-дневного периода 7 ч.
Google инвестирует в Anthropic $40 млрд и предоставит 5 ГВт вычислительных мощностей на фоне обострившейся ИИ-гонки 13 ч.
Новая статья: Mouse: P.I. For Hire — чёрно-белый Doom с мышами. Рецензия 20 ч.
ОАЭ намерены перевести половину госсектора под управление агентного ИИ за два года 21 ч.
«Открыла новую главу для корейских игр»: Crimson Desert заслужила уважение премьер-министра Южной Кореи 22 ч.
Режиссёр Resident Evil Requiem засветил продажи игры на фотографии с корпоратива Capcom 24 ч.
Вопреки опасениям фанатов, в Assassin’s Creed Black Flag Resynced всё-таки будет кровь и «даже не в виде платного DLC» 24-04 19:29
«Готическая версия Returnal»: трейлер хоррор-шутера Luna Abyss с датой релиза вызвал у игроков конкретные ассоциации 24-04 18:47
«Очень рады и до сих пор ошеломлены»: продажи Clair Obscur: Expedition 33 к первой годовщине превысили 8 миллионов копий 24-04 17:46
Мышь с 2,25" сенсорным экраном: Turtle Beach представила Command Series MC7 за $160 2 ч.
Энтузиаст взломал VBIOS на древней видеокарте S3, чтобы сделать чёрный цвет по-настоящему чёрным 2 ч.
Астрономы впервые наблюдали необъяснимый взрыв сверхновой — для него пришлось выдумывать новую теорию 2 ч.
$50 за защиту RTX 5090 от выгорания: Asus раскрыла цену специального кабеля ROG Equalizer 3 ч.
Маск перестал считать OpenAI и Сэма Альтмана мошенниками, но судиться не передумал 4 ч.
Сотрудников Nvidia и лично Хуанга восхитила работа OpenAI Codex на основе GPT-5.5 4 ч.
Геймерский смартфон OnePlus Ace 6 Ultra с чипом MediaTek Dimensity 9500 и батареей на 8600 мА·ч представят 28 апреля 4 ч.
Японский кубсат-оригами OrigamiSat-2 успешно расправился на орбите и вырос в 25 раз 4 ч.
Axiomtek PICO570 — x86-одноплатник на базе Intel Meteor Lake для периферийных ИИ-задач 6 ч.
Новая версия набора команд SCSI улучшает масштабируемость и отказоустойчивость СХД 6 ч.