Новости Hardware

NVIDIA объяснила, за счёт чего ускорители GeForce RTX 30-й серии так рванули в производительности

NVIDIA представила новое поколение игровых видеокарт Ampere 1 сентября, однако первоначальная презентация почти не содержала технических подробностей. Теперь, спустя несколько дней, компания обнародовала документацию, которая проясняет, откуда берётся то впечатляющее преимущество в производительности, которым выделяются на фоне предшественников видеокарты GeForce RTX 30-й серии.

Многие сразу обратили внимание, что в официальных характеристиках GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070 на сайте NVIDIA было указано ошеломляюще большое число CUDA-процессоров.

Как оказалось, удвоение FP32-производительности игровых процессоров Ampere по сравнению с Turing действительно имеет место, и связано оно с изменением архитектуры базовых строительных блоков GPU – потоковых процессоров (SM).

В то время как SM в GPU поколения Turing имели один вычислительный тракт для операций с плавающей точкой, в Ampere каждый потоковый процессор получил по два тракта, которые в сумме могут выполнить до 128 FMA-операций за такт против 64 у Turing. При этом половина из имеющихся исполнительных устройств Ampere способна исполнять как целочисленные (INT) операции, так и 32-битные операции с плавающей точкой (FP32), в то время как вторая половина устройств предназначена исключительно для FP32-операций. Такой подход применён ради экономии транзисторного бюджета, исходя из того, что игровая нагрузка порождает значительно больше FP32-, чем INT-операций. Впрочем, в Turing комбинированных исполнительных устройств не было вообще.

Одновременно для того, чтобы обеспечить усиленные потоковые процессоры необходимым объёмом данных, NVIDIA на треть увеличила объём L1-кеша в SM (с 96 до 128 Кбайт), а также вдвое увеличила его пропускную способность.

Другое важное усовершенствование в Ampere касается того, что CUDA-, RT- и тензорные ядра теперь могут работать полностью параллельно. Это позволяет графическому движку, например, использовать DLSS для масштабирования одного кадра, и в то же время на CUDA- и RT-ядрах рассчитывать следующий кадр, сокращая простои функциональных узлов и поднимая общую производительность.

К этому нужно добавить, что RT-ядра второго поколения, которые реализованы в Amрere, могут вычислять пересечения треугольников лучами в два раза быстрее, чем это происходило в Turing. А новые тензорные ядра третьего поколения в два раза улучшили математическую производительность при работе с разреженными матрицами.

Удвоение скорости расчёта пересечений треугольников в Ampere должно существенно повлиять на производительность ускорителей GeForce RTX 30-й серии в играх с поддержкой трассировки лучей. По утверждению NVIDIA, именно эта характеристика выступала узким местом в архитектуре Turing, в то время как показатели скорости расчётов пересечений лучей ограничивающих параллелепипедов нареканий не вызывали. Теперь же баланс производительности в трассировке оптимизирован, и более того, в Ampere оба типа операций с лучами (с треугольниками и параллелепипедами) могут выполняться параллельно.

В дополнение к этому для RT-ядер в Ampere была добавлена новая функциональность, позволяющая интерполировать положение треугольников. Это может быть использовано для размытия объектов в движении, когда не все треугольники в сцене находятся в постоянной позиции.

Для иллюстрации всего перечисленного, NVIDIA показала прямое сравнение, как распределяется нагрузка на графические процессоры Turing и Ampere в трассировке лучей в Wolfenstein Youngblood в разрешении 4K. Как следует из представленной иллюстрации, Ampere заметно выигрывает в скорости построения кадра как за счёт более быстрых математических FP32-вычислений, так благодаря RT-ядрам второго поколения, а также параллельной работе разнородных ресурсов GPU.

Кроме того, для практического подкрепления изложенного, NVIDIA представила дополнительные результаты тестов GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070. Согласно им, GeForce RTX 3070 примерно на 60 % опережает GeForce RTX 2070 в разрешении 1440p, причём такая картина наблюдается как в играх с поддержкой RTX, так и при традиционной растеризации, в частности, в Borderlands 3.

Производительность GeForce RTX 3080 оказывается вдвое лучше, чем у GeForce RTX 2080 в разрешении 4K. Правда, в этом случае в Borderlands 3 без поддержки RTX преимущество новой карты не двукратное, а примерно 80-процентное.

А старшая карта, GeForce RTX 3090, в собственных тестах NVIDIA показывает примерно полуторакратное преимущество над Titan RTX.

Как следует из сообщений технических журналистов, полноценные обзоры GeForce RTX 3080 эталонного дизайна должны быть опубликованы 14 сентября. Тремя днями позже, 17 сентября, будет разрешено публиковать данные тестов серийных моделей GeForce RTX 3080 от партнёров компании. Таким образом, появления в Сети результатов независимых тестов представителей GeForce RTX 30-й серии ждать осталось совсем немного.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
Прежде чем оставить комментарий, пожалуйста, ознакомьтесь с правилами комментирования. Оставляя комментарий, вы подтверждаете ваше согласие с данными правилами и осознаете возможную ответственность за их нарушение.
Все комментарии премодерируются.
Комментарии загружаются...
window-new
Soft
Hard
Тренды 🔥
NASA отправит на МКС космический туалет стоимостью 23 миллиона долларов США 37 мин.
Смартфон OPPO A33 получил 90-Гц экран, тройную камеру и процессор Snapdragon 460 при цене $155 3 ч.
MSI доработала подсистему питания GeForce RTX 3080 Gaming X Trio для повышения стабильности на высоких частотах GPU 3 ч.
Партнёры Apple потратят $900 миллионов на развитие производства в Индии в ближайшие пять лет 4 ч.
Lenovo готовит бюджетный смартфон с большой батареей и Android 10 6 ч.
Флагманские смартфоны Samsung следующего года получат 65-Вт быструю зарядку 6 ч.
Макет исследовательской станции «Луна-25» прошёл тепловакуумные испытания 6 ч.
Hyundai показала спортивный концепт-карт RM20e с электродвигателем мощностью 810 л. с. 6 ч.
Компактный компьютер Chuwi CoreBox Pro на процессоре Intel Ice Lake заключён в двухлитровый корпус 6 ч.
Тонкие ноутбуки Dell XPS 13 теперь доступны с процессорами Intel Tiger Lake. Цена начинается с $1000 6 ч.