Сегодня 14 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft закроет приложение Outlook Lite уже в следующем месяце 47 мин.
Уже 50 % сотрудников в США используют ИИ в работе, показал опрос 49 мин.
Intel зачистила официальный сайт от старых драйверов для встроенной графики процессоров Core 7–10 поколений 2 ч.
ORG: зависимость Великобритании от американских IT-гигантов ставит под угрозу национальную безопасность 3 ч.
Кооперативный пиратский экшен Windrose стартовал в раннем доступе Steam c «очень положительными» отзывами 4 ч.
Российские сайты и сервисы стали ухудшать работу для пользователей VPN 4 ч.
Потребительские ИИ-боты в 80 % случаев ставят неверные диагнозы, показало исследование 4 ч.
YouTube разрешит зрителям отключать рекламу — но только при одном условии и не везде 5 ч.
Meta может свергнуть Google с вершины рынка интернет-рекламы уже в этом году 6 ч.
Microsoft не удалит Copilot из Windows 11, а просто замаскирует ИИ-функции 7 ч.
Amazon поглотила спутникового оператора Globalstar за $11,57 млрд и договорилась о сотрудничестве с Apple 5 мин.
Опубликованы изображения смартфона-раскладушки Motorola Razr 70 43 мин.
Как по волшебству: AWS запускает инициативу Project Houdini для ускорения строительства ЦОД 60 мин.
QD-OLED, 1440p и 240 Гц всего за $350: Dell представила 27-дюймовый монитор Alienware 27 AW2726DM 2 ч.
Asus представила первую плату Mini-ITX серии TUF — TUF Gaming B850I WIFI Neo для Ryzen 2 ч.
Завтра смартфон Vivo V70 поступит в продажу в России 2 ч.
Учёные превратили каплю жидкого кристалла в оптический транзистор для гибких оптических чипов 2 ч.
Китайские власти за десять лет потратили на развитие полупроводникового производства втрое больше, чем американские 2 ч.
Первый iPhone Fold выведет Apple в тройку крупнейших производителей складных смартфонов 2 ч.
Microsoft обрушила рынок углеродных кредитов, разом остановив все закупки 3 ч.