Сегодня 22 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Alibaba нашла способ сократить потребность в количестве используемых ускорителей Nvidia на 82 %

Нехватка вычислительных мощностей, присущая динамично развивающемуся рынку искусственного интеллекта, в Китае усугубляется ограничениями на импорт специализированных ускорителей. Разработчики вынуждены заниматься оптимизацией, и Alibaba нашла способ сократить количество необходимых ускорителей Nvidia для работы своих языковых моделей на 82 %.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Как поясняет South China Morning Post, бета-тестирование профильной системы Aegaeon уже проводится одним их подразделений Alibaba Cloud на протяжении более чем трёх месяцев. По информации, представленной Alibaba на мероприятии SOSP в столице Южной Кореи, данная система позволила сократить количество обслуживающих десятки языковых моделей ускорителей Nvidia H20 с 1192 до 213 штук. При этом соответствующие языковые модели используют до 72 млн параметров, как поясняет источник.

Представителям Alibaba в создании такой системы помогали учёные Пекинского университета, которые назвали её «первой попыткой выявить излишние затраты, связанные с одновременным обслуживанием нагрузок с большими языковыми моделями». Провайдеры облачных услуг типа Alibaba сталкиваются с необходимостью одновременного обслуживания тысяч ИИ-моделей, но в сфере инференса наиболее часто используются лишь несколько моделей типа Qwen или DeepSeek, а прочие вызываются довольно редко. Это приводит к нерациональному расходованию ресурсов. В экосистеме Alibaba Cloud, например, до 17,7 % ускорителей выделяются для обработки 1,35 % запросов.

Исследователи во всём мире начали предлагать повысить эффективность использования вычислительных ресурсов за счёт объединения в пулы, когда один GPU обслуживает несколько моделей. Система Aegaeon использует автомасштабирование на уровне токенов, позволяющее GPU переключаться между разными моделями прямо в процессе генерирования токенов. Один GPU в результате способен обрабатывать до семи моделей, тогда как в альтернативно устроенных системах их количество в лучшем случае достигает двух или трёх. Задержки, необходимые на переключение между моделями, при этом сократились на 97 % в случае с Aegaeon.

Alibaba эту систему испытывает на маркетплейсе моделей Bailian, который предлагает модели Qwen корпоративным пользователям. Ускорители Nvidia H20 одноимённой американской компанией были созданы специально для китайского рынка, в апреле они попали под временный запрет на поставку в КНР, но к лету он был снят. Однако, китайские власти начали настоятельно рекомендовать национальным разработчикам отдавать предпочтение местной компонентной базе. В результате позиции Nvidia на китайском рынке передовых чипов для ИИ, по словам руководителя компании, буквально сократились до нуля.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
OpenAI планирует удвоить штат ради укрепления корпоративных продаж ChatGPT 50 мин.
Пользователи бесплатного режима ChatGPT в США в ближайшие недели столкнутся с необходимостью просматривать рекламу 2 ч.
Новая статья: John Carpenter's Toxic Commando — весёлый экшен для совместного отдыха. Рецензия 9 ч.
Apple хотела поглотить разработчика приложения камеры Halide, но рассорила учредителей стартапа 13 ч.
Реклама в ChatGPT забуксовала: крупные агентства вложили сотни тысяч, но аудитории не хватает 16 ч.
«Google Переводчик» научит пользователей правильному произношению с помощью ИИ 18 ч.
На PlayStation появится ИИ-генератор кадров, как у Radeon — но не в ближайшее время 20 ч.
Чиновников обяжут пользоваться мессенджером Max 21 ч.
Пентагон принял боевую ИИ-систему Palantir Maven в качестве основной для армии США 21 ч.
Microsoft представила MAI-Image-2 — ИИ-генератор изображений, который оказался неожиданно хорош в фотореализме и инфографике 21 ч.
Micron сейчас способна покрывать спрос на память от силы на две трети от требуемого уровня 18 мин.
Китайские мозговые импланты на три года отстают от американских Neuralink 56 мин.
Supermicro выгнала сооснователя компании, попавшегося на контрабанде в Китай подсанкционного ИИ-оборудования 11 ч.
Скандал с контрабандой обрушил акции Supermicro на 33 % — компания запустила реорганизацию 15 ч.
AMD «забыла» представить Ryzen 9 9950X3D2 с двойным 3D V-Cache на этой неделе, показал пресс-релиз ASRock 16 ч.
«Ты получаешь лучшее из обоих миров»: Apple объяснила, почему в процессорах M5 стало три типа ядер 16 ч.
Запрыгнуть в последний вагон: Европа арендует Crew Dragon, чтобы слетать на МКС до её закрытия 18 ч.
ИТ-холдинг Т1: только 9 % организаций в России обеспечены вычислительной инфраструктурой для ИИ 18 ч.
Alibaba сообщила об отгрузке 470 тысяч чипов, признав, что они пока уступают решениям NVIDIA и AMD 20 ч.
От чистки ковров к СЖО: Ecolab планирует купить CoolIT почти за $5 млрд 20 ч.