Сегодня 15 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Яндекс» намерен научить ИИ считывать эмоции и чувства людей 45 мин.
У Don't Nod большие проблемы — разработчики Life is Strange, Remember Me и Jusant оказались на грани банкротства 2 ч.
Nintendo проговорилась, чего ждать от ремейка легендарной The Legend of Zelda: Ocarina of Time 3 ч.
Спустя два года после релиза Capcom удалит микротранзакции из Dragon’s Dogma 2 и снизит цену игры 5 ч.
В Великобритании полицейского уличили в фальсификации доказательств преступлений с помощью ИИ 10 ч.
«Кто купит Xbox и Game Pass ради Gears?»: инсайдер рассекретил «безумный» бюджет Gears of War: E-Day 11 ч.
Anthropic проведёт переговоры с властями США для разблокировки ИИ-моделей Mythos 5 и Fable 5 11 ч.
В Steam завирусились виртуальные прятки Meccha Chameleon, где можно буквально слиться с окружением 12 ч.
Журналисты раскрыли подробности неанонсированного кооперативного ролевого боевика по «Ведьмаку» 12 ч.
Власти США заподозрили Китай в несанкционированном доступе к модели Mythos компании Anthropic 15 ч.
Китайские вузы закрыли более 12 000 «устаревших» специальностей, заменив их профессиями в сферах ИИ и робототехники 55 мин.
Midea запустила акцию «Сорви летний куш» с розыгрышем поездки в Китай и других призов 2 ч.
Nvidia тоже залезет в долги ради финансирования ИИ — Хуанг готовит облигации на $20 млрд 3 ч.
SpaceX с помощью IPO привлекла $85,7 млрд — сумма выросла на 14 % за счёт «зелёного башмака» 4 ч.
Ирано-американская мирная сделка запустила рост акций Samsung, SK hynix и других IT-компаний из Азии 4 ч.
МТС вложит 1 млрд рублей в модернизацию ядра сети ШПД и установку маршрутизаторов собственной разработки 4 ч.
Индийские клиенты Google Cloud уже неделю мирятся со сбоями сети из-за пожара в ЦОД в Дели 5 ч.
MSI оценила портативную приставку Claw 8 EX AI+ на чипе Arc G3 Extreme в $1799 5 ч.
Google Chromebook исполнилось 15 лет — массовыми хромбуки не стали, но завоевали популярность в образовании 5 ч.
Samsung в следующем году запустит производство 4-нм чипов для мозговых имплантов Neuralink 6 ч.