Хуанг показал Vera Rubin Superchip — CPU, два огромных GPU и 100 Пфлопс на одной плате для ИИ нового поколения

На конференции GTC 2025 глава компании Nvidia Дженсен Хуанг (Jensen Huang) продемонстрировал графический процессор следующего поколения — Rubin. Точнее, он показал со сцены прототип ускорителя Vera Rubin Superchip, который объединяет на одной плате совершенно новый центральный процессор Vera и пару огромных графических чипов Rubin. Такое сочетание обещает новый уровень производительности для ИИ-суперкомпьютеров будущего.

Источник изображений: Nvidia

Каждый GPU Rubin состоит из двух больших кристаллов с ядрами CUDA и восьми стеков высокоскоростной памяти HBM4 объёмом 288 Гбайт. Характеристики GPU не уточняются, равно как и пропускная способность памяти. Однако отмечается, что одна система Vera Rubin Superchip обеспечивает производительность в ИИ-операциях (FP4) на уровне 100 Пфлопс (100 квадриллионов операций в секунду).

Что касается центрального процессора Vera, то известно, что он предложит 88 ядер на неназванной версии архитектуры Arm с 176 потоками, а для его связи с графическими процессорами будет задействован интерфейс NVLink-C2C с пропускной способностью 1,8 Тбайт/с. Также на плате расположится оперативная память LPDDR (версия не уточняется, но вполне возможно, что это будет уже LPDDR6), в результате чего общий объём оперативной памяти на один «суперчип» достигнет 2 Тбайт.

На базе новых ускорителей Nvidia предложит самые разные системы, например новые Compute Tray, включая CPX-версию для задач с большим контекстом ИИ-моделей. Также компания рассказала о готовых серверных стойках Vera Rubin NVL144 с производительностью 3,6 Эфлопс (3,6 квинтильона операций в секунду) для запуска уже обученных ИИ-моделей (FP4 inference), а также 1,2 Эфлопс для обучения моделей (FP8 training).

Это примерно в 3,3 раза быстрее актуальных систем GB300 NVL72. Система предложит 13 Тбайт/c общей пропускной способности для памяти HBM4 и в совокупности 75 Тбайт быстрой системной памяти, а общая пропускная способность интерфейсов NVLink и CX9 достигнет 260 Тбайт/с и 28,8 Тбайт/с соответственно.

Nvidia также раскрыла детали о системе NVL576 на базе чипов Rubin Ultra, которые ожидаются во второй половине 2027 года. Эти чипы будут включать четыре крупных GPU-чиплета на одной подложке и 1 Тбайт памяти HBM4e. В итоге система NVL576 обеспечит производительность до 15 Эфлопс FP4 и 5 Эфлопс FP8, предлагая до 365 Тбайт быстрой системной памяти и сетевую пропускную способность до 1,5 Пбайт/с через NVLink.

Nvidia сообщила, что первые тестовые экземпляры Rubin уже поступили в лаборатории компании для испытаний, а старт массового производства запланирован на 2026 год. На смену этой архитектуре придёт совершенно новая архитектура Feynman, запуск которой намечен на 2027–2028 годы. Однако никаких чипов на этой платформе Nvidia пока не показала — вряд ли на данный момент они вообще существуют в физическом воплощении.