Сегодня 17 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

SRAM какой-то: Nvidia представила чип Groq 3 LPU для ускорения инференса ИИ-моделей на уровне токенов

На прошедшей в этом году конференции GTC генеральный директор Nvidia Дженсен Хуанг (Jensen Huang) сообщил, что в этом году платформа Vera Rubin получит расширение. Nvidia использует для этого интеллектуальную собственность, приобретённую у Groq. В состав Rubin вошёл новый чип Nvidia Groq 3 LPU. Компания определяет его как ускоритель инференса. Его задача — выдавать токены в большом объёме и с низкой задержкой.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Платформа Rubin уже включает шесть компонентов, из которых Nvidia собирает стоечные системы и затем масштабирует их до ИИ-фабрик. Это GPU Rubin, CPU Vera, коммутаторы внутрисистемного масштабирования NVLink 6, интеллектуальный сетевой адаптер ConnectX-9, процессор обработки данных BlueField-4 и коммутатор межсистемного масштабирования Spectrum-X с совместно интегрированной оптикой. Groq 3 LPU стал новым элементом этой платформы и ещё одним строительным блоком Rubin при масштабном развёртывании.

Groq 3 LPU отличается от большинства ИИ-ускорителей схемой памяти. Обычно такие системы используют HBM в качестве рабочего уровня памяти. Каждый Groq 3 LPU содержит 500 Мбайт SRAM. Для сравнения, каждый GPU Rubin оснащён 288 Гбайт HBM4. По ёмкости разница велика. По пропускной способности соотношение иное: SRAM обеспечивает до 150 Тбайт/с, а HBM4 — около 22 Тбайт/с. Для ИИ-задач, чувствительных к пропускной способности, рост этого показателя даёт преимущество при инференсе. Именно поэтому Nvidia вводит Groq 3 в состав Rubin.

Стойка Groq 3 LPX включает 256 чипов Groq 3 LPU. Такая система располагает 128 Гбайт SRAM. Её суммарная пропускная способность достигает 40 Пбайт/с. Для объединения чипов внутри стойки предусмотрен выделенный интерфейс внутрисистемного масштабирования. Его пропускная способность составляет 640 Тбайт/с на стойку.

Вице-президент Nvidia по гипермасштабируемым решениям Иэн Бак (Ian Buck) назвал Groq LPX сопроцессором для Rubin. По его словам, он повысит производительность декодирования «на каждом слое ИИ-модели на каждом токене». Nvidia связывает это решение со следующим рубежом ИИ — мультиагентными системами. Речь идёт о сценариях, где нужно обеспечивать интерактивную работу при инференсе моделей с триллионами параметров и окнами контекста в миллионы токенов.

Когда ИИ-агенты всё чаще обмениваются данными друг с другом, а не с человеком в окне чат-бота, меняется и порог приемлемого отклика. Скорость, достаточная для человека, оказывается слишком низкой для ИИ-агента. Бак описывает переход от мира, где разумным считался уровень 100 токенов в секунду, к уровню 1 500 токенов в секунду и выше для межагентного обмена.

Добавление Groq 3 LPU должно усилить позиции Rubin в сегменте низколатентного инференса. В тексте в качестве конкурента названа Cerebras. Компания использует процессоры Wafer-Scale Engine (WSE), выполненные на целой кремниевой пластине, где большие объёмы SRAM объединены с вычислениями для низколатентного инференса на продвинутых моделях. OpenAI также привлекала мощности Cerebras для обслуживания части передовых моделей из-за выгодных характеристик задержки этой платформы.

Иэн Бак также допустил, что появление Groq 3 LPU может сократить роль ускорителя инференса Rubin CPX. Он сказал, что сейчас Nvidia сосредоточена на интеграции стойки Groq 3 LPX с Rubin. Дополнительных подробностей он не привёл. При этом оба чипа рассчитаны на сходное усиление инференса, но Groq LPU не требует большого объёма памяти GDDR7, который нужен каждому модулю Rubin CPX.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Конференция OS DAY 2026 «Встроенные операционные системы, реальное время» 25 мин.
«Захотелось теперь отцом стать»: экспериментальный боевик Pragmata от Capcom стартовал в Steam с «крайне положительными» отзывами 2 ч.
Warhammer 40,000: Space Marine 2 превзошла «даже самые смелые мечты» издателя — на защиту Империума встали 12 миллионов космодесантников 3 ч.
МТС Exolve: как ставка на self-service за год изменила рынок коммуникаций для бизнеса 3 ч.
Российскую криптобиржу Grinex взломали и украли активы на 1 млрд рублей 3 ч.
Надёжный инсайдер подтвердил дату выхода Assassin’s Creed Black Flag Resynced — Ubisoft показала неуловимый ремейк журналистам 4 ч.
ИИ-агент OpenAI Codex получил многие улучшения в новой версии 8 ч.
Ядро Linux лишается поддержки российских процессоров «Байкал-Т1» 13 ч.
Нуарный ретрошутер Mouse: P.I. For Hire стартовал в Steam с рейтингом 94 % 14 ч.
Nvidia выпустила драйвер с поддержкой Pragmata, Neverness to Everness и Windrose 17 ч.
Xiaomi представила телевизоры Redmi TV A Pro 2026 — старшая 75" модель стоит меньше $500 3 ч.
Лояльность к iPhone превысила 96 % — пользователи Android готовы менять бренд почти в четыре раза чаще 3 ч.
Ветеран Apple, который выводил на рынок iPod, Watch и AirPods, уходит из компании после 31 года работы 4 ч.
Смартфон Huawei Mate 80 Pro с продвинутыми камерами и смарт-часы Watch GT Runner 2 для любителей бега поступили в продажу в России 4 ч.
Одноплатный компьютер Orange Pi Zero 3W получил чип Allwinner A733 и до 16 Гбайт ОЗУ 4 ч.
Intel наняла руководителя для своего контрактного бизнеса с опытом работы в Samsung 4 ч.
Tesla уже ищет на Тайване инженеров для своего американского мегазавода Terafab по выпуску чипов 5 ч.
Акции ASML и TSMC упали в цене на фоне превосходной квартальной отчётности 6 ч.
Новая статья: Обзор Dreame X60 Ultra Complete: 4 × 4 в мире роботов-уборщиков 13 ч.
Ракета Blue Origin New Glenn прошла огневые испытания перед первым повторным запуском в воскресенье 14 ч.