Оригинал материала: https://3dnews.ru/1076198

Обзор видеокарты NVIDIA GeForce RTX 4090: время монстров

Архитектура Ada Lovelace. Технические характеристики видеокарт, цены

С тех пор, как NVIDIA представила первые чипы с аппаратной трассировкой лучей, эволюция «зеленых» видеокарт вернулась на путь роста чистой производительности, в то время как основы логики и функциональности GPU уже были заложены на годы вперед. Кремний Ampere привнес существенные корректировки в архитектуру, и все-таки по сравнению с предыдущим поколением чипов, Turing, изменения носили уже преимущественно экстенсивный характер. Что касается семейства Ada Lovelace, которое легло в основу ускорителей 40-й серии, то главные нововведения, реализованные в этих кристаллах, связаны со специализированными блоками графического процессора. Приоритетом вновь стала энергоэффективность, а главное — быстродействие в абсолютных величинах, которое зиждется на количественных параметрах GPU.

Благодаря тому, что NVIDIA вновь получила доступ к передовой фотолитографии TSMC, ей удалось выпустить чипы с ранее немыслимым компонентным бюджетом и тактовыми частотами, стремящимися к отметке 3 ГГц. Результат — межпоколенческая разница в производительности GPU по золотому стандарту GeForce GTX 1080 Ti. Кроме того, 40-я серия GeForce появилась в более благоприятное время, чем 30-я, которой пришлось выдержать тройной удар: от глобального дефицита полупроводников, пандемии и криптовалютного бума, а значит, кризис доступности видеокарт уже не повторится — по крайней мере, в таком же масштабе.

Всем существующим позициям 30-й серии рано или поздно предстоит замена 40-ми эквивалентами, но пока NVIDIA ограничилась двумя старшими моделями — GeForce RTX 4080 и RTX 4090, которые оценены в $1 199 и $1 599 соответственно. Даже RTX 4080 сулит ощутимо большую производительность по сравнению со старшими представителями GeForce 30, но его релиз состоится 16 ноября. А флагманский GeForce RTX 4090 уже здесь и готов к обзору, пусть и с изрядной задержкой после того, как новинку успели оценить наши зарубежные коллеги.

#Архитектура Ada Lovelace и графический процессор AD102

Структура чипов Ada, названных так в честь математика Ады Лавлейс, в общих чертах ничем не отличается от структуры Ampere. Крупнейшим блоком архитектуры, который позволяет масштабировать GPU в сторону большей или меньшей мощности, остается GPC (Graphics Processing Cluster): он состоит из растеризатора, выполняющего проекцию геометрии в пикселы, и 12 потоковых мультипроцессоров (SM), общее число которых издавна является наглядной характеристикой быстродействия «зеленых» чипов. Кроме того, начиная с Ampere частью GPC стали блоки операций растеризации (ROP) — благодаря этому пропускная способность растеризаторов и пиксельный филлрейт находятся в оптимальном соотношении 1:1.

Что касается потоковых мультипроцессоров, то в части работы с универсальным шейдерным кодом NVIDIA не сообщает о каких-либо изменениях по сравнению с логикой Ampere. Каждый SM содержит восемь секций по 16 FP32-совместимых CUDA-ядер, половина которых способна оперировать целочисленными данными INT32. Кроме того, в SM есть секция из четырех ALU специального назначения (SFU), предназначенных для выполнения тригонометрических операций, неопубликованное число скалярных ALU и пара CUDA-ядер двойной разрядности (FP64), которые гарантируют GPU базовую совместимость с подобным кодом. Операции над числами FP16 процессоры NVIDIA выполняют в удвоенном темпе, что имеет значение не только в контексте вычислительных задач, но и для игрового рендеринга, когда шейдеру не требуется высокая точность данных. Наконец, в состав SM входят четыре блока наложения текстур, четыре тензорных ядра и RT-блок. За более подробной информацией об основах архитектуры Ampere, которая полностью справедлива и в отношении Ada, рекомендуем обратиться к теоретической части нашего обзора GeForce RTX 3080.

Таким образом, Ada ничего не изменила в теоретических оценках пропускной способности шейдерного массива по сравнению с конкурирующими архитектурами RDNA и RDNA 2 от AMD. NVIDIA сохраняет за собой главное преимущество в виде параллельного исполнения расчетов FP32 и INT32 или попросту вдвое большего числа инструкций FP32 за такт GPU, что, замечу справедливости ради, можно полностью реализовать лишь в условиях равномерной нагрузки рабочих приложений, но не игр. С другой стороны, Compute Unit «красных» графических процессоров, очевидно, является более экономной конструкцией с позиции транзисторного бюджета, но кого это волнует с тех пор, как NVIDIA получила в свое распоряжение передовой техпроцесс 4N на линиях TSMC?

Для выпуска консьюмерской ветки чипов Ampere NVIDIA пришлось воспользоваться мощностями Samsung, в то время как 7-нанометровый узел TSMC был занят другими крупными заказчиками (в первую очередь Apple и AMD) и продуктами самой NVIDIA для дата-центров. Чипы Ada вновь производятся силами TSMC, теперь по норме 5 нм. Формальная классификация процесса — 4N — вызвала путаницу в новостях, ведь у TSMC есть линия с похожим названием N4. В действительности фотолитография 4N представляет собой разновидность N5, заточенную специально под кремний NVIDIA. Как бы то ни было, и N4, и 4N принадлежат к узлу 5 нм. NVIDIA не сообщает никаких подробностей о геометрии техпроцесса, но даже если ориентироваться на параметры стандартного N5, миграция с самсунговских 8 нм позволяет рассчитывать на увеличение плотности транзисторов сразу в 3,1 раза!

Если рассматривать флагманский процессор нового поколения, AD102, то при площади в 608,6 мм2 он является не самым крупным из «зеленых» кристаллов потребительской категории (первенство принадлежит TU102), однако его компонентный бюджет составляет ни много ни мало 76,3 млрд транзисторов. По этому параметру AD102 в данный момент уступает лишь родственному серверному чипу H100, который состоит из 80 млрд транзисторов, а флагманский чип Ampere, GA102, содержит уже не столь впечатляющие 28,3 млрд. Львиная доля новых транзисторов была потрачена на то, чтобы увеличить количество SM с 84 у GA102 до 144 штук, а полная формула чипа включает 18 432 FP32-совместимых шейдерных ALU, 576 текстурных блоков и 192 ROP.

Легко заметить, что с учетом разницы между AD102 и GA102 в количестве SM компонентный бюджет увеличился непропорционально. Остальные транзисторы, не считая логики фиксированной функциональности и uncore-элементов, NVIDIA потратила на модификацию стека памяти. Дело в том, что уже в прошлом поколении графические процессоры столкнулись с дефицитом скорости VRAM, временным решением которого стали чипы GDDR6X, однако в масштабах AD102 и они едва ли обеспечивают достаточную пропускную способность. Ada пошла по такому же пути, как «красное» семейство Navi: задержку обращений к дальней памяти компенсирует раздувшаяся ближняя память, но в «зеленых» GPU идея реализована по-другому. AMD ввела третий уровень кеша, который уступает кешу L2 по совокупной пропускной способности каналов данных, но позволяет очень компактно упаковывать транзисторы. NVIDIA, в свою очередь, просто увеличила L2 с 6 Мбайт у GA102 до 96 Мбайт, что наверняка отразилось на площади кристалла, зато позволяет комбинировать высокий хитрейт массивного кеша с низкой латентностью.

Впрочем, опыт AMD показал, что, несмотря на большой кеш третьего уровня, чипы Navi все еще чувствительны к пропускной способности шины VRAM, а у младших моделей небольшой объем Infinity Cache является уязвимым местом при определенной вычислительной нагрузке (включая некоторые игры). NVIDIA застраховалась от этих проблем благодаря тому, что AD102 унаследовал от старшего Ampere 384-битную шину оперативной памяти. Заметим, что у чипа H100 родственной архитектуры Hopper объем L2 намного меньше, чем у AD100, — всего 50 Мбайт, однако Hopper использует несоизмеримо более производительную внешнюю память HBM3.

ПроизводительNVIDIA
Название AD104 AD103 AD102
Где используется Н/Д GeForce RTX 4080 GeForce RTX 4090
Микроархитектура Ada Lovelace Ada Lovelace Ada Lovelace
Техпроцесс, нм TSMC 4N TSMC 4N TSMC 4N
Число транзисторов, млрд 35,8 45,9 76,3
Площадь чипа, мм2 295 378,6 608,6
Число SM/TPC/GPC
Streaming Multiprocessors (SM) 60 80 144
Thread Processing Clusters (TPC) 30 40 72
Graphics Processing Clusters (GPC) 5 7 12
Конфигурация потокового мультипроцессора (SM)
CUDA-ядра FP16 Нет Нет Нет
CUDA-ядра FP32 4 × 32 4 × 32 4 × 32
CUDA-ядра FP64 2 2 2
CUDA-ядра INT32 4 × 16 4 × 16 4 × 16
ALU специального назначения (SFU) 4 × 4 4 × 4 4 × 4
Тензорные ядра 4 × 1 4 × 1 4 × 1
RT-ядра 1 1 1
Блоки наложения текстур (TMU) 4 4 4
Объем регистрового файла, Кбайт 256 256 256
Объем кеша L1/разделяемой памяти, Кбайт 128 128 128
Программируемые вычислительные блоки GPU
CUDA-ядра FP16 Нет Нет Нет
CUDA-ядра FP32 7 680 10 240 18 432
CUDA-ядра FP64 120 160 288
CUDA-ядра INT32 3 840 5 120 9 216
ALU специального назначения (SFU) 960 1 280 2 304
Тензорные ядра 240 320 576
RT-ядра 60 80 144
Блоки GPU фиксированной функциональности
Блоки наложения текстур (TMU) 240 320 576
Блоки операций растеризации (ROP) 80 112 192
Конфигурация памяти
Объем кеша L2, Мбайт 48 64 96
Разрядность шины RAM, бит 192 256 384
Тип микросхем RAM GDDR6X SGRAM GDDR6X SGRAM GDDR6X SGRAM
Интерфейс NVLINK Нет Нет Нет
Интерфейс PCI Express 4.0 x16 4.0 x16 4.0 x16

Помимо AD102, NVIDIA опубликовала спецификации графических процессоров второго и третьего эшелона — AD103 и AD104. AD103 по формуле основных вычислительных блоков близок к GA102, однако, в отличие от старого флагмана, пользуется 256-битной шиной VRAM и несет 64 Мбайт кеша L2. AD104, в свою очередь, содержит 60 SM и, таким образом, занимает по этой характеристике промежуточную позицию между GA102 и чипом GA104, на котором стоит вся середина 30-й серии GeForce от RTX 3060 Ti до RTX 3070 Ti, но довольствуется уже 192-битной шиной памяти, а объем L2 составляет 48 Мбайт.

#Рейтрейсинг в чипах Ada

Чипы Ada Lovelace не могут похвастаться таким же списком функциональных нововведений, как Ampere и тем более Turing. Однако немногочисленные качественные изменения, которыми характеризуется кремний Ada, обещают существенно увеличить быстродействие GPU в приоритетных для NVIDIA задачах — рейтрейсинге, глубинном обучении и масштабировании кадров при помощи DLSS.

Так, архитектура Ampere представила RT-блоки второго поколения, которые способны в параллельном режиме находить точку пересечения одного луча с боксом BVH и другого луча — с поверхностью полигона. Последняя операция в Ampere выполняется дважды за такт, а в Ada — уже четырежды. Таким образом, логика рейтрейсинга архитектуры RDNA 2, так же как Intel Arc, по этому показателю в четыре раза уступает RT-блокам Ada.

Помимо роста чистой пропускной способности, у RT-блоков появился дополнительный механизм оптимизации при взаимодействии с альфа-каналом текстур. Прозрачные текстуры в общем случае усложняют рейтрейсинг из-за того, что каждое пересечение луча с полигоном вызывает шейдер, который определяет, что делать с лучом дальше (остановить трассировку или продолжить поиск дальнейших пересечений). В случае, если разработчик игры хочет обеспечить физически корректный рейтрейсинг текстуры с прозрачными участками (такой как листья деревьев или пламя), соответствующий полигон целиком помечают как прозрачный, что вызывает предсказуемый удар по быстродействию. Функция Opacity Micromesh Engine в чипах Ada позволяет снять часть нагрузки с шейдерных ALU путем разбивки примитива на сеть микротреугольников. Метка каждого микротреугольника идентифицирует его как непрозрачный либо прозрачный, а дальнейшее поведение луча после того, как обнаружено пересечение с микро-треугольником, определяется внутри RT-блока без вызова дополнительных шейдеров. В ином случае, когда микротреугольник имеет «неизвестное» состояние, задача решается программно на CUDA-ядрах SM.

К сожалению, микрополигональные маски прозрачности, необходимые для работы OME, должны быть определены заранее, и подобная технология не является частью API Direct3D (впрочем, в последние годы Microsoft оперативно реагирует на появление новых функций GPU), а значит, вопрос применять ее или нет остается на усмотрение разработчиков игры. Пока OME используется только в трассированной модификации Portal.

Следующая аппаратная модификация RT-ядер Ada направлена на решение другой проблемы. Благодаря тому, как эффективно работают структуры BVH, многократное усложнение геометрии сцены несущественно увеличивает время, которое требуется для поиска пересечения луча с боксом BVH (кстати, в отличие от AMD и Intel, NVIDIA так и не раскрыла, сколько таких пересечений за такт GPU может найти один RT-блок). А вот время генерации BVH и объем, который она занимает в памяти, практически линейно зависит от количества полигонов в сцене. Чтобы сэкономить ресурсы видеокарты, NVIDIA предложила новый вид геометрического примитива (Displaced Micro-Mesh), который представляет собой единственный треугольник и ассоциированную с ним карту смещения. Последняя содержит барицентрические координаты множества дополнительных вершин, амплитуду их смещения относительно плоскости базового треугольника и, таким образом, выполняет компактное описание детализированной геометрии в пространстве отдельно взятого примитива, а не всей сцены. Как следствие, для трассировки сцены не требуется исчерпывающая предварительная тесселяция, переполняющая структуру BVH, а доступ к информации Displaced Micro-Mesh выполняется по требованию (при необходимости найти точку пересечения луча с поверхностью треугольника DMM дополнительная геометрия формируется на лету).

С таким же успехом Displaced Micro-Mesh можно использовать в контексте растеризации с произвольной точностью деталей при помощи вычислительных или mesh-шейдеров , которые появились в архитектуре Turing и с тех пор вошли в состав Direct3D. Алгоритм DMM также открыт для любых производителей софта и железа, хотя лишь чипы Ada в данный момент имеют аппаратные средства для его ускорения. Первыми партнерами NVIDIA, которые собираются внедрить DMM в собственных продуктах, стали Adobe и Simplygon (создатель одноименного инструментария для оптимизации 3D-графики).

Наконец, в работе Ada с шейдерами для трассировки лучей произошло изменение на уровне планирования потоков инструкций. В типичной ситуации рейтрейсинга сцены первичные лучи от источника света представляют собой несколько потоков одной и той же шейдерной программы, что гарантирует идеальный параллелизм вычислений и тесную локализацию необходимых ресурсов в стеке памяти GPU. А вот на этапе вторичных, отраженных лучей граф вычислений разбивается на отличные друг от друга шейдеры, исполнение которых зачастую происходит последовательно. Кроме того, шейдеры вторичных лучей неизбежно обращаются к разрозненным адресам памяти, что усложняет кеширование.

Чтобы компенсировать потерю быстродействия, вызванную расходящимися потоками инструкций, логика SM и памяти Ada подготовлена к возможности эффективно перегруппировывать потоки (Shader Execution Reordering) с целью повысить однородность вычислений. Впрочем, Ada — еще не настолько умный GPU, чтобы выполнять перегруппировку автоматически. Для этого разработчикам ПО придется использовать расширения проприетарного интерфейса NVAPI, хотя NVIDIA уже работает с Microsoft, чтобы стандартизировать SER в рамках Direct3D. По оценкам чипмейкера, в ситуациях с большим расхождением потоков (таких как Path Tracing) SER позволяет рассчитывать на двукратный рост производительности. Первой игрой с поддержкой SER станет Cyberpunk 2077. Грядущее обновление также принесет с собой режим RT: Overdrive, который увеличит плотность вычислений вплоть до 600 расчетов трассировки лучей на пиксель и больше, а главное DLSS 3.0.

#Тензорные вычисления, DLSS 3.0 и кодирование видео

Процессоры Ada, как и серверные чипы Hopper, содержат массив тензорных ядер четвертого поколения, которые развивают вдвое большую пропускную способность за такт GPU по сравнению с тензорными ядрами Ampere. Кроме того, Ada позаимствовала у Hopper функцию Transformer Engine для ускорения тренировки т. н. трансформеров — разновидности нейросетей, получившей широкое распространение в таких задачах, как распознавание естественного языка и автореферирование, благодаря высокому параллелизму расчетов.

Однако в потребительских видеокартах главным потребителем тензорных вычислений было и остается масштабирование кадров с помощью DLSS. DLSS сам по себе является довольно ресурсоемким инструментом, которому пойдет на пользу высокая производительность тензорных ядер четвертого поколения, не говоря уже про общую массу тензорной логики в кристаллах Ada. Тем не менее наращивание вычислительной мощности в распоряжении DLSS не способно устранить фундаментальное ограничение всех существующих в играх методов апскейлинга. Дело в том, что, когда апскейлинг снимает нагрузку с GPU за счет рендеринга в пониженном разрешении, на первый план выходит быстродействие центрального процессора (это наглядно продемонстрируют тесты GeForce RTX 4090).

DLSS следующей, третьей версии решает эту проблему единственным возможным способом: теперь нейросеть не только выполняет масштабирование кадров, прошедших весь конвейер рендеринга, но и способна генерировать новые промежуточные кадры, опираясь на векторы движения внутри графического движка и Optical Flow. Последний представляет собой алгоритм аппроксимации движения пикселей, который издавна используется в обработке видео, VR/AR и машинном зрении. Графические процессоры Ampere как раз содержат аппаратный блок Optical Flow, отделенный от кодировщика видео NVENC, а в кремнии Ada его производительность возросла более чем вдвое. DLSS 3.0 также сулит вдвое большее быстродействие по сравнению с DLSS второй версии даже в условиях, когда фреймрейт ограничен ресурсами CPU.

Тот факт, что чипы Ampere умеют обрабатывать Optical Flow в железе, ставит под вопрос эксклюзивный характер DLSS 3.0, хотя формально третья версия алгоритма работает лишь на чипах Ada. Эксперименты моддеров с ранней версией грядущего патча Cypberunp 2077 показали, что DLSS 3.0 с функцией генерации кадров можно запустить на видеокартах 30-й или даже 20-й серии и получить значительную прибавку фреймрейта. Однако апскейлинг работает нестабильно, так что ограничения, установленные NVIDIA, все-таки могут иметь под собой фактические основание. Как бы то ни было, DLSS 3.0 далеко не сразу приобретет широкую поддержку в играх.

Разумеется, интегрированным ASIC для вычислений Optical Flow может воспользоваться не только DLSS, но и рабочие приложения — в первую очередь связанные с обработкой видео. Кроме того, вслед за интеловскими графическими процессорами Arc, чипы NVIDIA научились кодировать в железе стандарт AV1. Чипы AD102 и AD103 и вовсе комплектуются двумя кодировщиками NVENC, однако пройдет какое-то время, прежде чем распространенные средства монтажа и конвертации видео получат доступ к этим функциям.

#Технические характеристики видеокарт, цены

В данный момент линейка GeForce 40 представлена двумя моделями: RTX 4080 и RTX 4090. Флагманский ускоритель, о котором пойдет речь в данном обзоре, создан на основе чипа первого эшелона, AD102, но конфигурация GPU была урезана с целью увеличить поставки пригодных для эксплуатации кристаллов и оставить место для потенциального GeForce RTX 4090 Ti. Процессор утратил 16 SM, а общая формула чипа составляет 16 384 FP32-совместимых CUDA-ядра, 512 текстурных блоков и 176 ROP.

Старшая модель комплектуется 24 Гбайт памяти GDDR6X, работающей с пропускной способностью 21 Гбит/с на контакт 384-битной шины. Сам GPU по референсным спецификациям развивает тактовую частоту в 2 520 МГц при типичной игровой нагрузке, хотя, как покажут измерения, это весьма умеренная оценка. Даже исходя из референсных тактовых частот теоретическое быстродействие GeForce RTX 4090 оценивается в 2,3 раза выше по сравнению с GeForce RTX 3090 Ti, что, впрочем, является недостижимым ориентиром в реальных задачах (особенно играх). Как и GeForce RTX 3090 Ti, новый флагман рассчитан на энергопотребление вплоть до 450 Вт, однако NVIDIA наверняка не остановится на этом, если учесть, что полностью разблокированный AD102 еще не пошел в массы.

В свою очередь, GeForce RTX 4080, спроектирован по старой схеме NVIDIA, когда предтоповая видеокарта опирается на чип второго эшелона — в данном случае AD103. GPU также немного урезан (на 4 SM) и содержит 9 728 активных CUDA-ядер FP32, 304 блоков наложения текстур и 112 ROP. Шина памяти у RTX 4080 256-битная, но здесь используются микросхемы GDDR6X с общим объемом 16 Гбайт и пропускной способностью 22,4 Гбит/с на контакт. Хотя у GeForce RTX 4080 меньше шейдерных ALU, чем у GeForce RTX 3090 Ti, благодаря проектной тактовой частоте 2 505 МГц новинка на 33 % опережает бывший флагман по теоретическим оценкам быстродействия. Впрочем, при резерве мощности в 350 Вт аналогом RTX 4080 скорее является GeForce RTX 3080 Ti, а дистанция между этими устройствами по теоретической производительности составляет 43 %.

Изначально NVIDIA собиралась продолжить череду релизов 12-гигабайтной версией GeForce RTX 4080 на основе чипа GA104 с 192-битной шиной VRAM, но в ответ на критику релиз отменили. Эту видеокарту ждет ребрендинг и, возможно, коррекция спецификаций сообразно новому позиционированию.

До сих пор мы говорили о том, какими новшествами отличаются ускорители 40-й серии. Теперь перечислим функции, которых в Ada нет. Во-первых, потребительские GPU (как и ускорители для рабочих станций на базе Ada) окончательно лишились интерфейса NVLink, который стал прерогативой HPC-решений. Во-вторых, Ada, в отличие от Intel Arc, не поддерживает DisplayPort версии 2.0, что также вряд ли огорчит большинство пользователей. Наконец, хотя чипы Hopper уже освоили PCI Express пятого поколения, Ada довольствуется PCI Express 4.0 — вот это ограничение, может, и проявит себя в каких-то специфических задачах.

ПроизводительNVIDIA
Модель GeForce RTX 3080 Ti GeForce RTX 3090 Ti GeForce RTX 4080 GeForce RTX 4090
Графический процессор
Название GA102 GA102 AD103 AD102
Микроархитектура Ampere Ampere Ada Lovelace Ada Lovelace
Техпроцесс Samsung 8N Samsung 8N TSMC 4N TSMC 4N
Число транзисторов, млрд 28,3 28,3 45,9 76,3
Тактовая частота, МГц: Base Clock / Boost Clock 1 365/1 665 1 395/1 695 2 210/2 505 2 230/2 520
Шейдерные ALU FP32 10 240 10 752 9 728 16 384
Блоки наложения текстур (TMU) 320 336 304 512
Блоки операций растеризации (ROP) 112 112 112 176
Тензорные ядра 320 336 304 512
RT-ядра 80 84 76 128
Оперативная память
Разрядность шины, бит 384 384 256 384
Тип микросхем GDDR6X SGRAM GDDR6X SGRAM GDDR6X SGRAM GDDR6X SGRAM
Тактовая частота, МГц (пропускная способность на контакт, Мбит/с) 1 188 (19 000) 1 313 (21 000) 1 400 (22 400) 1 313 (21 000)
Объем, Мбайт 12 288 24 576 16 384 24 576
Объем кеша L2, Мбайт 6 6 64 96
Шина ввода/вывода PCI Express 4.0 x16 PCI Express 4.0 x16 PCI Express 4.0 x16 PCI Express 4.0 x16
Производительность
Пиковая производительность FP32, GFLOPS (из расчета максимальной указанной частоты) 34 099 36 449 48 737 82 575
Производительность FP64/FP32 1/64 1/64 1/64 1/64
Производительность FP16/FP32 1/1 1/1 1/1 1/1
Пропускная способность оперативной памяти, Гбайт/с 912 1 008 717 1 008
Вывод изображения
Интерфейсы вывода изображения DisplayPort 1.4a, HDMI 2.1 DisplayPort 1.4a, HDMI 2.1 DisplayPort 1.4a, HDMI 2.1 DisplayPort 1.4a, HDMI 2.1
TBP/TDP, Вт 350 450 320 450
Розничная цена (США, без налога), $ 1 199 (рекоменд. в момент выхода) 1 999 (рекоменд. в момент выхода) 1 199 (рекоменд. в момент выхода) 1 599 (рекоменд. в момент выхода)
Розничная цена (Россия), руб. 116 900 (рекоменд. в момент выхода) Н/Д Н/Д Н/Д

Что касается цен старших моделей GeForce 40, то RTX 4080 назначили рекомендованную стоимость $1 199 (точно такую же, как у RTX 3080 Ti). Флагманский RTX 4090 оценивается в $1 599, что на $100 превышает релизную цену GeForce RTX 3090, однако RTX 3090 Ti стартовал с более высокой отметки $1 999.

В продажу пока поступил лишь GeForce RTX 4090, видеокарт сейчас не хватает на всех желающих, поэтому они продаются с большой накруткой. Так, на американских торговых площадках RTX 4090 отдают не меньше чем за $2 299, а у нас минимальная розничная цена составляет 156 232 руб.

GIGABYTE GeForce RTX 4090 Gaming OC: конструкция и печатная плата

#GIGABYTE GeForce RTX 4090 Gaming OC: конструкция

Мы рассмотрим вариант GeForce RTX 4090 от GIGABYTE под маркой Gaming OC, который стоит дороже наиболее доступных версий RTX 4090: валютные цены устройства начинаются с $2 398, а рублевые — с 177 119 руб. Видеокарта имеет заводской разгон, правда, лишь номинальный: параметр Boost Clock увеличили с 2 520 до 2 535 МГц.

Gaming OC — просто громадная видеокарта, которая весит больше 2 кг и занимает в корпусе даже не три, а все четыре слота расширения. Ну а что вы хотели, когда устройство потребляет вплоть до 450 Вт мощности? Кожух ускорителя выполнен в обновленной строгой стилистике, а три вентилятора с диаметром крыльчатки 110 мм украшены RGB-подсветкой.

GIGABYTE продолжает тенденцию, начатую видеокартами Founders Edition 30-й серии: короткая PCB и вырез в задней панели обеспечивают сквозной продув радиатора одним из вентиляторов.

Массивный кулер и металлический бэкплейт уже придают печатной плате значительную жесткость, но при установке в стандартном горизонтальном положении лучше воспользоваться крепежным набором, который фиксирует хвост видеокарты к задней стенке корпуса ПК.

Теплосъемник GPU представляет собой гибридную конструкцию из небольшой испарительной камеры и восьми тепловых трубок. Множество пластин, соединенных с оребрением либо с краями испарительной камеры, отводят жар от микросхем видеопамяти и компонентов VRM.

Благодаря тому, что в GeForce RTX 4090 используются чипы GDDR6X объемом 16 Гбит, вся память расположена на передней стороне PCB, а задняя уже не требует усиленного охлаждения. Тем не менее между текстолитом и бэкплейтом Gaming OC проложено несколько термопрокладок.

#GIGABYTE GeForce RTX 4090 Gaming OC: печатная плата

Графический процессор AD102, предположительно, обладает физической и электрической совместимостью с чипом GA102, что позволяет партнерам NVIDIA сэкономить на дизайне печатных плат. Однако GIGABYTE Gaming OC собрана на совершенно новой PCB.

Приметой всех печатных плат GeForce RTX 4090 является миниатюрный двенадцатиконтактный разъем питания 12VHPWR, предписанный спецификацией PCI Express 5.0, который начали использовать еще в GeForce RTX 3090 Ti. Коннектор рассчитан на передачу мощности вплоть до 600 Вт и снабжен дополнительной группой из четырех сигнальных контактов. Одна из этих линий сообщает электронике БП о том, что разъем 12VHPWR задействован, а вторая является каналом обратной связи от видеокарты, который подтверждает стабильность питания.

Заметим, что форма и распиновка силовой колодки 12VHPWR идентичны тому разъему, которым NVIDIA оснащала ускорители 30-й серии до появления GeForce RTX 3090 Ti, — не удивительно в свете того, что NVIDIA входит в группу PCI-SIG, которая стандартизирует новые версии протокола и сопутствующие характеристики PCI Express. Как следствие, старые видеокарты Founders Edition тоже можно запитать кабелем 12VHPWR. Камнем преткновения являются только блоки питания новейшего стандарта ATX 3.0, которые работают с кабелями 12VHPWR немного иначе.

Дело в том, что еще один сигнальный контакт 12VHPWR по спецификации PCI-SIG определяет доступную устройству мощность: если он замкнут на землю, БП дает видеокарте максимальные 600 Вт, в противном случае — только 450 Вт, чего вполне хватает даже GeForce RTX 3090. В рамках ATX 3.0 к регулировке мощности привлекли еще и четвертый, резервный контакт, а если оба сигнала не замкнуты на землю (как у первых Founders Edition), устройство получит не больше 150 Вт.

У GeForce RTX 4090, в свою очередь, есть проблемы обратной совместимости. Ко всем модификациям ускорителя прилагается адаптер с одного 12VHPWR на четыре привычных восьмиконтактных разъема питания. Подключение видеокарты через адаптер, в отличие от 12VHPWR, не гарантирует одинаковый ток по всем шести разъемам, что может привести к перегреву и отгоранию контактов. Тем более, если уж приходится использовать переходник, не рекомендуем сажать два восьмиконтактных разъема на один кабель БП — в таком случае даже жилы с хорошим сечением на открытом тестовом стенде ощутимо нагреваются. А лучше сразу купите в довесок к RTX 4090 блок питания хотя бы ATX 2.0 c разъемами 12VHPWR.

Однако вернемся к печатной плате GIGABYTE Gaming OC. Разводка VRM предусматривает в общей сложности 23 фазы питания графического процессора, но площадки для компонентов трех фаз пустуют. Регулятор напряжения устроен по очень экономному принципу: силовые каскады Vishay SIC653A характеризуются номинальным током в 50 А, а управляет ими ШИМ-контроллер uPI uP9512U. Это восьмифазный чип, так что фазы VRM пришлось соединить параллельно. Для сравнения в ранних Founders Edition 30-й серии NVIDIA использовала пару ШИМ-контроллеров на 10 и 6 фаз, а дорогие версии RTX 3090 Ti перешли на 16-фазный контроллер Monolithic Power Systems MP2891. Питание микросхем видеопамяти в GIGABYTE Gaming OC четырехфазное, на основе таких же 50-амперных силовых каскадов и контроллера uPI uP9512R.

Скорость самих чипов GDDR6X соответствует их номиналу 21 Гбит/с. Кроме того, отметим, что на плате Gaming OC есть переключатель BIOS, который позволяет задействовать либо «оверклокерскую», либо «тихую» прошивку. Наконец, нельзя не обратить внимание на закрытые сплошным слоем лака контактные площадки в левом верхнем углу PCB, которые представляют собой не что иное, как похороненный разъем NVLink. Быть может, поддержка прямой коммуникации между GPU все-таки имеется в архитектуре Ada, но была отключена по дороге к релизу. А может, это всего лишь рудимент унификации дизайна PCB между процессорами Ada и Ampere.

Методика тестирования. Тактовые частоты, энергопотребление, температура, уровень шума и разгон. Игровые тесты (1920 × 1080)

#Тестовый стенд, методика тестирования

Тестовый стенд
CPU AMD Ryzen 9 5950X (4,4 ГГц, фиксированная тактовая частота всех ядер)
Материнская плата ASUS ROG Strix X570-E Gaming (Resizable BAR вкл.)
Оперативная память G.Skill Trident Z RGB F4-3200C14D-16GTZR, 4 × 8 Гбайт (3600 МТ/с, CL17)
ПЗУ Intel SSD 760p, 2048 Гбайт
Блок питания Corsair AX1200i, 1200 Вт
Система охлаждения CPU Corsair iCUE H115i RGB PRO XT
Корпус Открытый стенд
Операционная система Windows 10 Pro x64
ПО для GPU AMD
Все видеокарты AMD Radeon Software Adrenalin 2020 Edition 22.10.1
ПО для GPU NVIDIA
Все видеокарты NVIDIA GeForce Game Ready Driver 522.25
Игры без трассировки лучей
Игра API Метод тестирования Настройки графики Полноэкранное сглаживание
Assassin's Creed Valhalla DirectX 12 Встроенный бенчмарк Макс. качество графики TAA High
Borderlands 3 DirectX 12 Встроенный бенчмарк Макс. качество графики TAA
Cyberpunk 2077 DirectX 12 Встроенный бенчмарк Макс. качество графики TAA
DOOM Eternal Vulkan OCAT, начало миссии Mars Core Макс. качество графики TSSAA
Far Cry 6 DirectX 12 Встроенный бенчмарк Макс. качество графики TAA
Metro Exodus DirectX 12 Встроенный бенчмарк Макс. качество графики; Shading Rate 100% TAA
Red Dead Redemption 2 Vulkan Встроенный бенчмарк Макс. качество графики TAA High
Total War: WARHAMMER III DirectX 11 Встроенный бенчмарк (Battle Benchmark) Макс. качество графики TAA High
Watch Dogs: Legion DirectX 12 Встроенный бенчмарк Макс. качество графики TAA
Игры с трассировкой лучей
Игра API Метод тестирования Настройки графики Полноэкранное сглаживание/масштабирование
Cyberpunk 2077 DirectX 12 Встроенный бенчмарк Макс. качество графики TAA/DLSS Balanced/FSR Balanced
DOOM Eternal Vulkan OCAT, начало миссии Mars Core Макс. качество графики TSSAA/DLSS Balanced
Far Cry 6 DirectX 12 Встроенный бенчмарк Макс. качество графики TAA/FSR Balanced
Metro Exodus Enchanced Edition DirectX 12 Встроенный бенчмарк Макс. качество графики; Ray Tracing: Ultra; Reflections: Raytaced; VRS: 1x TAA/DLSS Balanced
Minecraft with RTX Beta DirectX 12 OCAT, бенчмарк в мире Portal Pioneers Макс. дальность рендеринга Н/Д / DLSS (коэффициент масштабирования зависит от целевого разрешения)
Quake II RTX Vulkan (расширения VK_KHR) Timedemo, demo1.dm2 Макс. качество графики TAA/FSR Balanced
Watch Dogs: Legion DirectX 12 Встроенный бенчмарк Макс. качество графики TAA/DLSS Balanced

В большинстве тестовых игр показатели средней и минимальной кадровых частот выводятся из массива времени рендеринга индивидуальных кадров, который записывает встроенный бенчмарк (или утилита OCAT, если бенчмарка нет).

Средняя частота смены кадров на диаграммах является величиной, обратной среднему времени кадра. Для оценки минимальной кадровой частоты вычисляется количество кадров, сформированных в каждую секунду теста. Из этого массива чисел берется значение, соответствующее 1-му процентилю распределения. Red Dead Redemption 2 является исключением: ее встроенный бенчмарк самостоятельно регистрирует 1-й процентиль времени рендеринга кадра, из которого выводится соответствующая кадровая частота. В Assassin’s Creed Valhalla мы вынуждены ориентироваться на минимальный фреймрейт по данным интегрированного бенчмарка.

Рабочие приложения
Приложение Настройки API
AMD Intel NVIDIA
Adobe Premiere Pro 2022 (22.x) PugetBench for Premiere Pro 0.95.4 (состав тестов по ссылке) Воспроизведение MultiCam H.264, ProRes 422, RED R3D (4K@59,94 FPS) OpenCL OpenCL CUDA
Heavy GPU Effects: экспорт в ProRes 422HQ (4K@59,94 FPS)
Blender 3.x Демо Agent 327 Barbershop с сайта Blender Рендерер Cycles HIP oneAPI CUDA/OptX
Blackmagic Design DaVinci Resolve Studio 18.x Puget Systems DaVinci Resolve Studio Benchmark 0.93.1 (состав тестов по ссылке) Standard Benchmark (4K GPU Effects, 4K Media). Use GPU for RED R3D: Debayer OpenCL OpenCL CUDA
Кодирование/декодирование видео (ffmpeg 5.x)
Задача Настройки API
AMD Intel NVIDIA AMD Intel NVIDIA
Декодирование H.264 1920 × 1080 (High Profile, L4.1); 3840 × 2160 (High Profile, L5.1) D3D11VA
HEVC 1920 × 1080 (Main Profile, L4.0); 3840 × 2160 (Main Profile, L5.0); 7680 × 4320 (Main Profile, L6.0)
VP9 1920 × 1080; 3840 × 2160; 7680 × 4320
AV1
Кодирование H.264 1920 × 1080 -c:v h264_amf -quality speed -coder cabac -level 4.1 -refs 1 -b:v 3M -c:v h264_qsv -preset veryfast -cavlc 0 -level 4.1 -b:v 3M -c:v h264_nvenc -preset fast -coder cabac -level 4.1 -refs 1 -b:v 3M AMF Intel Media SDK NVENC
3840 × 2160 -c:v h264_amf -quality speed -coder cabac -level 5.1 -refs 1 -b:v 7.5M -c:v h264_qsv -preset veryfast -cavlc 0 -level 5.1 -b:v 7.5M -c:v h264_nvenc -preset fast -coder cabac -level 5.1 -refs 1 -b:v 7.5M
Кодирование HEVC 1920 × 1080 -c:v hevc_amf -quality speed -level 4 -b:v 3M -c:v hevc_qsv -preset veryfast -b:v 3M -c:v hevc_nvenc -preset fast -level 4 -b:v 3M
3840 × 2160 -c:v hevc_amf -quality speed -level 5 -b:v 7.5M -c:v hevc_qsv -preset veryfast -b:v 7.5M -c:v hevc_nvenc -preset fast -level 5 -b:v 7.5M
7680 × 4320 -c:v hevc_amf -quality speed -level 6 -b:v 20M -c:v hevc_qsv -preset veryfast -b:v 20M -c:v hevc_nvenc -preset fast -level 6 -refs 1 -b:v 20M

Мощность видеокарт регистрируется отдельно от CPU и прочих компонентов ПК с помощью устройства NVIDIA PCAT. В качестве тестовой нагрузки для тестов мощности и уровня шума используется игра Cyberpunk 2077 при разрешении 3840 × 2160 и максимальных параметрах качества графики (без трассировки лучей), а также стресс-тест FurMark с наиболее агрессивными настройками (разрешение 3840 × 2160, MSAA 8x). Замеры всех параметров выполняются после прогрева видеокарты, когда температура GPU и тактовые частоты стабилизируются.

#Участники тестирования

В тестировании производительности приняли участие следующие видеокарты:

Прим. В скобках после названий видеокарт указаны базовая и boost-частота согласно спецификациям каждого устройства. Видеокарты с заводским разгоном приведены в соответствие с референсными параметрами (или приближены к последним) при условии, что это можно сделать без ручной правки кривой тактовых частот. В противном случае (ускорители серии NVIDIA GeForce 16, а также GeForce RTX 2070/2080/2080 Ti Founders Edition) используются настройки производителя.

#Тактовые частоты, энергопотребление, температура, уровень шума и разгон

Миграция кремния NVIDIA с нормы 8 нм на 5 нм привела к значительному росту тактовых частот. Как и в предыдущих поколениях «зеленых» GPU, Boost Clock 2 520 МГц оказался весьма консервативной оценкой возможностей чипа. На самом деле даже в такой ресурсоемкой игре, как Cyperpunk 2077, процессор AD102 поддерживает частоту выше 2,7 МГц, а если сравнить ее с параметрами GA102 на плате GeForce RTX 3090, прибавка составляет ни много ни мало 913 МГц, или ровно 50 %! При этом чип довольствуется питающим напряжением 1,05 В, которое является нормой для многих партнерских ускорителей 30-й серии.

Рабочие параметры под нагрузкой (Cyberpunk 2077)
Видеокарта Настройки Тактовая частота GPU, МГц Напряжение питания GPU, В Частота вращения вентиляторов, об/мин (% от макс.) Частота вращения вентиляторов 2, об/мин (% от макс.)
Средн. Макс. Средн. Макс. Средн. Средн.
GIGABYTE GeForce RTX 4090 Gaming OC (+200 МГц, 23 Гбит/с, 24 Гбайт) OC BIOS 2925 2925 1,05 1,05 2026 (77%) 1824 (80%)
GIGABYTE GeForce RTX 4090 Gaming OC (2235/2535 МГц, 21 Гбит/с, 24 Гбайт) OC BIOS 2730 2730 1,05 1,05 1914 (75%) 1744 (78%)
GIGABYTE GeForce RTX 4090 Gaming OC (2235/2535 МГц, 21 Гбит/с, 24 Гбайт) Silent BIOS 2730 2730 1,05 1,05 1610 (75%) 1481 (82%)
NVIDIA GeForce RTX 3090 FE (1395/1695 МГц, 19,5 Гбит/с, 24 Гбайт) 1817 1830 0,90 0,91 1141 (43%) 1141 (43%)
NVIDIA GeForce RTX 3080 Ti FE (1365/1665 МГц, 19 Гбит/с, 12 Гбайт) Термопрокладки GELID GP-Extreme 1726 1740 0,89 0,91 2108 (58%) 2108 (62%)
NVIDIA GeForce RTX 3080 FE (1440/1710 МГц, 19 Гбит/с, 10 Гбайт) 1822 1830 1,00 1,01 1747 (49%) 1747 (52%)
AMD Radeon RX 6900 XT (1825/2250 МГц, 16 Гбит/с, 16 Гбайт) 2267 2282 1,02 1,04 1331 (40%) Н/Д

Прим. Измерение всех параметров выполняется после прогрева GPU и стабилизации тактовых частот.

Кстати, об играх: GeForce RTX 4090 стал видеокартой, окончательно сломавшей Crysis 3 в качестве нагрузочного теста, которым мы пользовались десять лет подряд. Любопытно, что Crysis 3 даже на GeForce RTX 4090 выдает немногим больше 60 FPS при разрешении 4К и сглаживании MSAA 4x, тем не менее уже не загружает GPU таким образом, чтобы видеокарта приблизилась к лимиту потребляемой мощности. Штатная TBP GeForce RTX 4090, напомним, составляет 450 Вт, а у слегка разогнанной модификации GIGABYTE Gaming OC энергопотребление под стрессовой нагрузкой достигает 459 Вт. В Cyberpunk 2077 жор поменьше — 410–411 Вт. Впрочем, если сравнить с GeForce RTX 3090, который расходует в играх 390 Вт, оказывается, что мощность выросла не так уж сильно.

Неспроста GIGABYTE пришлось использовать кулер монументальных размеров, чтобы обеспечить безопасную температуру GPU и одновременно удовлетворительный уровень шума. Но приоритетной характеристикой все-таки является температура: кристалл не нагревается выше 68 °С ценой достаточно высокого звукового давления (около 44 дБА). К счастью, у GeForce RTX 4090 Gaming OC есть «тихий» BIOS, который снижает уровень шума до 39 дБА. При этом не происходит заметных изменений в энергопотреблении, тактовых частотах GPU и почти не страдает температура чипа: существенный рост — с 79 до 89 °С по датчику горячей точки — наблюдается только в стресс-тесте. Рады отметить, что и новые чипы GDDR6X объемом 16 Гбит нагреваются куда меньше по сравнению со своими предшественниками: если для ускорителей 30-й серии, оборудованных 8-гигабитной памятью, привычны температуры от 90 °С, температура VRAM на плате RTX 4090 не превышает 64 °С.

Как и следовало ожидать от флагманской модели, графический процессор GeForce RTX 4090 посредственно разгоняется. При увеличенном на 33 % резерве мощности (то есть до 600 Вт) нам удалось поднять планку Boost Clock на 200 МГц, а в действительности частота увеличилась на 195 МГц, что составляет 7 % от исходного значения. Впрочем, теперь лишь 75 МГц отделяют чип AD102 от психологического рубежа 3 ГГц, который наверняка еще покорится другим версиям RTX 4090. С другой стороны, оперативная память GDDR6X разгоняется превосходно — со штатной пропускной способности 21 вплоть до 23 Гбит/с.

#Игровые тесты (1920 × 1080)

Игры при разрешении 1080p без трассировки лучей уже давно не способны полностью загрузить мощные GPU, и в результате кадровую частоту сдерживает производительность центрального процессора. GeForce RTX 4090 довел эту тенденцию до предела, а результаты нескольких тестов в режимах 1080p и 1440p настолько похожи, что и в 1440p потенциал RTX 4090 наверняка упирается в CPU. Более мощные процессоры, нежели Ryzen 9 5950X, который мы используем для тестов, помогут добиться большего от RTX 4090, но вряд ли в корне изменят ситуацию. Дело в том, что среднего фреймрейта большинства игр при разрешении 1080p и так за глаза хватает для казуального гейминга (как минимум 127 FPS в самых сложных случаях), однако лишь самые легкие тайтлы способны приблизиться к частоте обновления современных игровых мониторов. Вот 442 FPS в DOOM Eternal — это, безусловно, впечатляет.

Как следствие «процессорозависимости», RTX 4090 в режиме 1080p не так уж далеко ушел от старших видеокарт прошлого поколения: среднее преимущество новинки перед GeForce RTX 3090 составляет 25 % FPS, а по сравнению с GeForce RTX 3080 Ti и Radeon RX 6900 XT — 30 и 26 % соответственно. С другой стороны, владельцы GeForce RTX 2080 Ti могут рассчитывать на очень существенную прибавку игрового быстродействия даже при разрешении 1080p — в среднем 73 % FPS.

Игровые тесты (2560 × 1440, 3840 × 2160)

#Игровые тесты (2560 × 1440)

Игры при разрешении 1440p — опять-таки не лучшее применение ресурсов GeForce RTX 4090. И все же в каждом тестовом тайтле новинка гарантирует средний фреймрейт не меньше 123 FPS, чем не может похвастаться ни одно устройство предшествующего поколения, да и процентное соотношение результатов резко увеличилось по сравнению с тестами в 1080p. Так, GeForce RTX 4090 превосходит GeForce RTX 3090 на 43 % средней кадровой частоты, а отрыв от RTX 3080 Ti и Radeon RX 6900 XT достиг 51 и 49 % соответственно. Что касается GeForce RTX 2080 Ti, то новый флагман превосходит старый более чем вдвое.

#Игровые тесты (3840 × 2160)

При разрешении 2160p GeForce RTX 4090 наконец заработал в полную силу. Более того, оказывается, NVIDIA выпустила первую видеокарту, которая справляется с 4К на максималках без каких-либо ограничений. Большинство тестовых игр развивают средний фреймрейт даже не в 60, а свыше 90 FPS. Только Cyberpunk 2077 оказался крепким орешком: здесь результат RTX 4090 составляет 79 FPS.

Бенчмарки в 4К продемонстрировали максимальную дистанцию между сравниваемыми устройствами. Теперь GeForce RTX 4090 на 62 % опережает GeForce RTX 3090, а по сравнению с GeForce RTX 3080 Ti и Radeon RX 6900 XT новинка оказалась быстрее на 70 и 84 % соответственно. Наконец, смена GeForce RTX 2080 Ti на RTX 4090 приведет к росту фреймрейта в 2,5 раза.

Игровые тесты с трассировкой лучей. Игровые тесты в разгоне

#Игровые тесты с трассировкой лучей

Выводы о том, что GeForce RTX 4090 едва ли отрабатывает свое энергопотребление и стоимость при условно-низком разрешении экрана 1080p, распространяются даже на игры с трассировкой лучей. Так, апгрейд GeForce RTX 3080 Ti или GeForce RTX 3090 на RTX 4090 выражается в приросте фреймрейта лишь на 40 % или 32 %. Только по сравнению с GeForce RTX 2080 Ti и его «красным» эквивалентом в данных условиях — Radeon RX 6900 XT — новинка обеспечивает громадный бонус в 95 и 81 % FPS соответственно.

Без применения апскейлинга идеальной ситуацией для RTX 4090 является разрешение 1440p, когда средняя кадровая частота не падает ниже 76 FPS, а превосходство над старшими моделями 30-й серии (GeForce RTX 3080 Ti и RTX 3090) достигает 54–64 %. В свою очередь, преимущество RTX 4090 перед GeForce RTX 2080 Ti и Radeon RX 6900 XT возрастает до 141 и 118 % соответственно.

Наконец, в режиме 4К флагман 40-й серии превосходит GeForce RTX 3080 Ti и RTX 3090 на 72–83 % среднего фреймрейта. По сравнению с Radeon RX 6900 XT он быстрее на 166 %, а производительность GeForce RTX 2080 Ti ровно в три раза ниже, чем у RTX 4090.

Самое интересное, что даже в играх на экране 4К с максимальными параметрами графики и трассировкой лучей GeForce RTX 4090, по большому счету, не нуждается в масштабировании кадров, что является очередной исторической вехой на пути развития графических процессоров. Если не считать Cyberpunk 2077, где средний фреймрейт упал до 39 FPS, RTX 4090 позволяет рассчитывать на твердые 60 FPS.

Более того, в ряде случаев апскейлинг не дает RTX 4090 ровным счетом никакого преимущества. При разрешении 1080p только в Quake II RTX кадровая частота отреагировала на масштабирование FSR, и даже при разрешении 1440p средний прирост фреймрейта благодаря DLSS либо FSR оценивается в 26 % FPS. Другое дело — 4К, здесь масштабирование добавило RTX 4090 в среднем 73 % частоты смены кадров, а минимальное абсолютное значение составляет 84 FPS.

Сравнение видеокарт NVIDIA при использовании DLSS наглядно иллюстрирует, почему вам, скорее всего, не нужен GeForce RTX 4090 без монитора с высоким разрешением. В режиме 1080p новинка лишь на 6–11 % превосходит GeForce RTX 3090 и RTX 3080 Ti, а GeForce RTX 2080 Ti — на 48 % средней кадровой частоты. В 1440p процентное соотношение увеличивается до 21, 28 и 86 % соответственно и только в 4К достигает 61, 70 и 162 % FPS.

#Игровые тесты в разгоне

Как и следовало ожидать, разгон GeForce RTX 4090 оказался довольно бессмысленным занятием с практической точки зрения. В лучшем случае оверклокинг дает 7 % бонусного фреймрейта, а усредненный прирост кадровой частоты составляет 4 % FPS.

Тесты в рабочих приложениях. Кодирование/декодирование видео. Таблицы результатов. Выводы

#Тесты в рабочих приложениях

GeForce RTX 4090 по всем признакам является не только игровой, но и просьюмерской видеокартой, которая в номенклатуре продуктов NVIDIA занимает место серии TITAN. В качестве ускорителя задач GP-GPU флагман 40-й серии не ограничен разрешением экрана и обладает практически двукратным преимуществом перед GeForce RTX 3090 или GeForce RTX 3080 Ti в таких приложениях, как Blender. А если взять для сравнения GeForce RTX 2080 Ti, переход на RTX 4090 позволяет сократить время рендеринга почти в три раза. То же относится к Radeon RX 6900 XT.

Бенчмарк Premiere Pro, с другой стороны, преподнес довольно неожиданные результаты. GeForce RTX 4090 не имеет никаких преимуществ перед старыми видеокартами NVIDIA в скорости воспроизведения ресурсов RED R3D и даже немного уступает им при использовании футажей ProRes 422, а вот работа с наиболее распространенным форматом доставки контента H.264 ускорилась в два раза.

Производительность GPU в Premiere Pro более консистентно масштабируется при экспорте проекта, причем чем сложнее графические эффекты, тем больше разница между GeForce RTX 4090 и старшими моделями 30-й серии. Что касается «красных» видеокарт, то Radeon RX 6900 XT может соперничать разве что с GeForce RTX 2080 Ti — не в последнюю очередь из-за того, что Premiere Pro задействует аппаратный кодировщик NVENC чипов NVIDIA, но игнорирует соответствующую функцию чипов AMD.

GeForce RTX 4090 также значительно ускоряет эффекты постобработки в DaVinci Resolve по сравнению с RTX 3090 и вернул NVIDIA лидерство в скорости экспорта, которое ранее принадлежало Radeon RX 6900 XT.

#Кодирование/декодирование видео

Чипы Ada позаимствовали аппаратный декодер NVDEC у архитектуры Ampere, а разница в пропускной способности связана лишь с повышенными тактовыми частотами. Как бы то ни было, GeForce RTX 4090 развивает громадную скорость декодирования всех распространенных форматов доставки видео, включая AV1 при разрешении 8К с кадровой частотой выше 120 FPS.

Новая версия кодировщика NVENC также продемонстрировала умеренное преимущество перед предыдущими чипами при кодировании форматов H.264 и HEVC. Ключевые нововведения архитектуры Ada состоят в том, что чипы AD103 и AD102 имеют сразу два аппаратных кодировщика и могут работать с AV1. Но, к сожалению, поддержка этих функций еще не появилась в распространенном ПО, а для выполнения соответствующих тестов нам придется дождаться обновленной сборки ffmpeg или возможности компилировать его с нужной библиотекой.

#Производительность на ватт

Хотя GeForce RTX 4090 отличился чрезвычайно высокой потребляемой мощностью, по игровому быстродействию на ватт новинка на 43–44 % превосходит топовые модели 30-й серии — GeForce RTX 3080 Ti и GeForce RTX 3090. По сравнению с GeForce RTX 2080 Ti энергоэффективность выросла на 64 %, и только Radeon RX 6900 XT выделяется среди ускорителей прошлого поколения: GeForce RTX 4090 опередил его «всего» на 36 % удельной производительности.

При этом стоит заметить, что RTX 4090 уступает своим предшественникам 34–40 % игровых FPS в пересчете на число транзисторов графического процессора, что, безусловно, связано с громадным объемом кеша L2.

ПроизводительNVIDIAAMD
Модель GeForce RTX 4090 GeForce RTX 2080 Ti FE GeForce RTX 3080 Ti GeForce RTX 3090 Radeon RX 6900 XT GeForce RTX 3080 GeForce RTX 3090
Графический процессор GA102 TU102 GA102 GA102 Navi 21 XT GA102 GA102
Микроархитектура Ada Lovelace Turing Ampere Ampere RDNA 2 Ampere Ampere
Техпроцесс, нм 5 нм (4N) 12 нм FFN 8 нм (8N) 8 нм (8N) 7 нм FinFET 8 нм (8N) 8 нм (8N)
Число транзисторов, млрд 76,3 18,6 28,3 28,3 26,8 28 300 28 300
Площадь чипа, кв. мм 608,6 754 628 628 519,8 628 628
Средняя потребляемая мощность (Cyberpunk 2077), Вт 411 263 348 367 303 317 344
Производительность/Вт 100% −39% −30% −30% −27% +30% +19%
Производительность/млн транзисторов 100% +60% +59% +67% +54% −100% −100%
Производительность/кв. мм 100% −69% −43% −40% −37% −3% −3%
Производительность/Вт (обратное сравнение) 100% +64% +43% +44% +36% −23% −16%
Производительность/млн транзисторов (обратное сравнение) 100% −37% −37% −40% −35% +36990% +36990%
Производительность/кв. мм (обратное сравнение) 100% +218% +75% +66% +58% +3% +3%

#Результаты игровых тестов и цены

1920 × 1080
Полноэкранное сглаживание NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090 AMD Radeon RX 6900 XT
Assassin's Creed Valhalla TAA High 87 / 189 55 / 103 67 / 135 60 / 141 49 / 161
Borderlands 3 TAA 126 / 222 85 / 109 125 / 161 144 / 170 83 / 175
Cyberpunk 2077 TAA 113 / 172 74 / 94 101 / 141 100 / 140 119 / 148
DOOM Eternal TSSAA 277 / 442 169 / 268 222 / 366 241 / 393 242 / 365
Far Cry 6 TAA 89 / 132 91 / 121 93 / 129 93 / 132 92 / 130
Metro Exodus TAA 75 / 148 46 / 81 58 / 106 63 / 113 56 / 96
Red Dead Redemption 2 TAA High 88 / 149 33 / 63 48 / 89 52 / 95 76 / 80
Total War: WARHAMMER III TAA High 150 / 188 73 / 88 106 / 126 110 / 131 91 / 108
Watch Dogs: Legion TAA 87 / 127 60 / 85 78 / 109 80 / 114 90 / 134
Макс. −8% −2% 0% +6%
Средн. −42% −23% −20% −21%
Мин. −58% −40% −36% −46%
2560 × 1440
Полноэкранное сглаживание NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090 AMD Radeon RX 6900 XT
Assassin's Creed Valhalla TAA High 75 / 166 40 / 81 53 / 110 63 / 115 46 / 123
Borderlands 3 TAA 165 / 207 69 / 78 103 / 119 114 / 129 117 / 131
Cyberpunk 2077 TAA 114 / 154 49 / 62 74 / 94 78 / 99 69 / 92
DOOM Eternal TSSAA 277 / 443 139 / 205 190 / 297 207 / 322 204 / 290
Far Cry 6 TAA 89 / 127 89 / 98 90 / 121 92 / 124 90 / 125
Metro Exodus TAA 73 / 142 39 / 66 52 / 89 56 / 95 49 / 81
Red Dead Redemption 2 TAA High 70 / 131 28 / 53 42 / 76 42 / 80 66 / 70
Total War: WARHAMMER III TAA High 135 / 160 50 / 62 74 / 91 78 / 96 61 / 76
Watch Dogs: Legion TAA 89 / 124 50 / 66 67 / 88 70 / 94 75 / 104
Макс. −23% −5% −2% −2%
Средн. −52% −34% −30% −33%
Мин. −62% −43% −40% −53%
3840 × 2160
Полноэкранное сглаживание NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090 AMD Radeon RX 6900 XT
Assassin's Creed Valhalla TAA High 52 / 110 32 / 48 41 / 70 42 / 72 36 / 69
Borderlands 3 TAA 109 / 126 39 / 43 61 / 69 65 / 74 63 / 70
Cyberpunk 2077 TAA 60 / 79 25 / 31 37 / 47 39 / 50 29 / 40
DOOM Eternal TSSAA 242 / 337 88 / 115 131 / 179 141 / 193 123 / 159
Far Cry 6 TAA 91 / 115 50 / 57 75 / 81 79 / 85 73 / 80
Metro Exodus TAA 67 / 113 28 / 44 40 / 63 42 / 66 37 / 56
Red Dead Redemption 2 TAA High 53 / 97 19 / 37 30 / 56 29 / 58 49 / 52
Total War: WARHAMMER III TAA High 73 / 92 27 / 35 41 / 53 43 / 55 32 / 39
Watch Dogs: Legion TAA 80 / 104 32 / 40 47 / 58 50 / 61 47 / 60
Макс. −50% −30% −26% −30%
Средн. −61% −41% −38% −46%
Мин. −66% −47% −43% −58%

#Результаты игровых тестов с трассировкой лучей

1920 × 1080
Полноэкранное сглаживание NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090 AMD Radeon RX 6900 XT
Cyberpunk 2077 TAA 89 / 109 31 / 37 53 / 61 56 / 65 30 / 37
DOOM Eternal TSSAA 239 / 353 121 / 177 175 / 263 188 / 282 131 / 196
Far Cry 6 TAA 81 / 102 82 / 97 81 / 104 82 / 103 81 / 108
Metro Exodus Enchanced Edition TAA 73 / 129 38 / 58 51 / 80 55 / 85 46 / 68
Minecraft with RTX Beta TAA 64 / 175 77 / 86 110 / 131 117 / 144 50 / 58
Quake II RTX TAA Н/Д / 273 Н/Д / 83 Н/Д / 134 Н/Д / 146 Н/Д / 83
Watch Dogs: Legion TAA 70 / 90 40 / 50 58 / 74 62 / 79 49 / 67
Макс. −5% +2% +1% +6%
Средн. −49% −28% −24% −45%
Мин. −70% −51% −47% −70%
1920 × 1080 (DLSS)
Режим DLSS NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090
Cyberpunk 2077 Balanced 92 / 115 57 / 67 87 / 106 91 / 111
DOOM Eternal Balanced 239 / 352 146 / 212 198 / 298 211 / 317
Metro Exodus Enchanced Edition Balanced 74 / 133 46 / 78 57 / 102 60 / 109
Minecraft with RTX Beta Quality 64 / 172 123 / 140 68 / 170 65 / 172
Watch Dogs: Legion Balanced 70 / 89 54 / 71 66 / 87 70 / 91
Макс. −19% −1% +2%
Средн. −32% −10% −6%
Мин. −42% −23% −18%
2560 × 1440
Полноэкранное сглаживание NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090 AMD Radeon RX 6900 XT
Cyberpunk 2077 TAA 66 / 76 20 / 24 34 / 40 36 / 43 18 / 23
DOOM Eternal TSSAA 238 / 344 98 / 135 147 / 208 158 / 225 102 / 144
Far Cry 6 TAA 78 / 101 75 / 81 82 / 100 81 / 100 80 / 105
Metro Exodus Enchanced Edition TAA 71 / 116 31 / 44 42 / 61 46 / 66 37 / 51
Minecraft with RTX Beta TAA 125 / 159 47 / 53 76 / 82 82 / 90 31 / 35
Quake II RTX TAA Н/Д / 166 Н/Д / 44 Н/Д / 83 Н/Д / 88 Н/Д / 46
Watch Dogs: Legion TAA 71 / 90 30 / 37 45 / 55 49 / 60 36 / 46
Макс. −20% −1% −1% +4%
Средн. −59% −39% −35% −54%
Мин. −73% −50% −47% −78%
2560 × 1440 (DLSS)
Режим DLSS NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090
Cyberpunk 2077 Balanced 91 / 115 40 / 48 68 / 79 72 / 83
DOOM Eternal Balanced 239 / 351 121 / 167 172 / 247 187 / 267
Metro Exodus Enchanced Edition Balanced 73 / 131 41 / 66 54 / 89 58 / 95
Minecraft with RTX Beta Balanced 64 / 172 97 / 109 117 / 160 146 / 172
Watch Dogs: Legion Balanced 70 / 88 45 / 58 63 / 80 63 / 82
Макс. −34% −7% 0%
Средн. −46% −22% −17%
Мин. −58% −32% −28%
3840 × 2160
Полноэкранное сглаживание NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090 AMD Radeon RX 6900 XT
Cyberpunk 2077 TAA 33 / 39 8 / 11 14 / 18 16 / 20 8 / 10
DOOM Eternal TSSAA 180 / 232 60 / 77 98 / 127 105 / 137 57 / 79
Far Cry 6 TAA 79 / 93 46 / 50 65 / 71 69 / 74 63 / 70
Metro Exodus Enchanced Edition TAA 53 / 73 17 / 25 27 / 37 29 / 39 21 / 28
Minecraft with RTX Beta TAA 72 / 78 21 / 24 36 / 40 39 / 43 14 / 17
Quake II RTX TAA Н/Д / 76 Н/Д / 19 Н/Д / 39 Н/Д / 41 Н/Д / 22
Watch Dogs: Legion TAA 51 / 61 17 / 20 27 / 32 29 / 34 19 / 24
Макс. −46% −24% −20% −25%
Средн. −66% −45% −42% −62%
Мин. −75% −54% −49% −78%
3840 × 2160 (DLSS)
Режим DLSS NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX 2080 Ti FE NVIDIA GeForce RTX 3080 Ti NVIDIA GeForce RTX 3090
Cyberpunk 2077 Balanced 73 / 84 23 / 27 38 / 44 39 / 46
DOOM Eternal Balanced 220 / 286 81 / 103 126 / 164 135 / 176
Metro Exodus Enchanced Edition Balanced 71 / 116 31 / 45 45 / 64 47 / 68
Minecraft with RTX Beta Performance 64 / 173 61 / 69 98 / 110 101 / 117
Watch Dogs: Legion Balanced 69 / 89 32 / 39 49 / 58 50 / 61
Макс. −56% −35% −31%
Средн. −62% −41% −38%
Мин. −68% −48% −45%

#Выводы

Избалованные рекордными достижениями производителей GPU в прошлом десятилетии, мы не раз жаловались на то, что с тех пор рост быстродействия новых видеокарт замедлился. Однако благодаря архитектуре Ada Lovelace NVIDIA наконец удалось повторить достижения таких славных продуктов, как GeForce GTX 1080 Ti. По сравнению с аналогичной моделью прошлого поколения, GeForce RTX 3090, новый RTX 4090 развивает на 62 % большую производительность при разрешении 4К без трассировки лучей и уже на 72 % — с трассировкой.

В отличие от флагманских продуктов 20-й и 30-й серии, RTX 4090 настолько оторвался от своих предшественников, что даже апгрейд компьютеров, укомплектованных RTX 3080 Ti или RTX 3090, не лишен практического смысла, а старое правило замены видеокарты через одно поколение GPU теперь актуально как никогда. В подходящих условиях GeForce RTX 4090 опережает RTX 2080 Ti ни много ни мало в 2,5-3 раза по среднему игровому фреймрейту. Предтоповая модель AMD, Radeon RX 6900 XT, также выглядит бледно на фоне RTX 4090: если без трассировки лучей преимущество NVIDIA в 4К составляет 84 % FPS, то с рейтрейсингом речь идет о разнице в 166 %.

Впрочем, чрезвычайно высокое быстродействие означает, что в разрешениях до 4К видеокарта существенно ограничена возможностями центрального процессора и не способна работать в полную силу. Так, в 1080p и 1440p зазор между GeForce RTX 3090 и RTX 4090 сужается до 25 и 43 % FPS соответственно, что само по себе неплохо, но едва ли соответствует амбициям, энергопотреблению и стоимости новинки. На это можно возразить, что чип Ryzen 9 5950X в нашем тестовом стенде не является лучшим игровым CPU, но он сильно разогнан, а условные 10 % дополнительного фреймрейта в режиме 1080p, которые могла бы обеспечить миграция на платформу Intel, не меняют общей картины. В играх без трассировки лучей GeForce RTX 4090 и так развивает среднюю частоту смены кадров не меньше 124 FPS на мониторе 1440p, а этого более чем достаточно даже самым привередливым геймерам.

Что касается 4К, то GeForce RTX 4090, в отличие от прошлых флагманских решений, не только формально рассчитан на такое разрешение экрана, но и (впервые за неполные 10 лет!) развивает кадровую частоту от 60 FPS во всех до единого тестовых тайтлах, а чаще — 100 FPS и больше. Поразительно, но RTX 4090 удерживает планку 60 FPS в 4К даже в играх с рейтрейсингом — за исключением Cypberpunk 2077, но это легко исправить с помощью DLSS. При разрешении 1440p апскейлинг GeForce RTX 4090, во-первых, не нужен, во-вторых, в силу пресловутой «процессорозависимости», неэффективен (а в 1080p фактически мертв). Не зря NVIDIA представила третью версию алгоритма DLSS, которая выполняет не только масштабирование, но и генерацию промежуточных кадров. Похоже, с темпами прогресса, который задала NVIDIA, центральные процессоры уже не добьются адекватной мощным GPU производительности без подобных костылей.

Помимо игр, GeForce RTX 4090 в неменьшей степени ориентирован на вычисления общего назначения, среди которых первые места занимает глубинное обучение и профессиональная визуализация, но результат апгрейда разнится от приложения к приложению. Так, по скорости 3D-рендеринга RTX 4090 почти вдвое опережает старый флагман NVIDIA, а вот в ПО для видеомонтажа все зависит от сложности постобработки. Важно, что RTX 4090 имеет 24 Гбайт памяти и способен кодировать видео AV1 в железе.

С технической же точки зрения графические процессоры Ada представляют собой укрупненный Ampere с рядом точечных изменений, сфокусированных на производительности RT-блоков и тензорных ядер. Своими достижениями чип AD102 обязан в первую очередь переходу с производственной нормы 8 нм на условные 5 нм, позволившему раздуть компонентный бюджет до умопомрачительных 76 млрд транзисторов и поднять рабочие тактовые частоты сразу на 900 МГц. При этом GeForce RTX 4090 в полтора раза превосходит RTX 3080 Ti и RTX 3090 по энергоэффективности, но коль скоро NVIDIA уже нормализовала резерв мощности десктопных видеокарт в 450 Вт, не было никаких причин двигаться в обратном направлении. Как следствие, флагман нуждается в мощном блоке питания и требует особого внимания к качеству силовой проводки внутри компьютера (а лучше от греха подальше купить БП с кабелями 12VHPWR).

Однако производительность — не единственная дисциплина, в которой GeForce RTX 4090 установил новый рекорд. Нельзя проигнорировать тот факт, что с легкой руки NVIDIA топовые видеокарты в очередной раз стали дороже, чем прежде. Впрочем, если взять за точку отсчета GeForce RTX 3090, то RTX 4090 при цене в $1 599 предлагает на 51 % больше игровых FSP за доллар и на 27 % больше, чем RTX 3080 Ti (в 4К без рейтрейсинга). А по сравнению с GeForce RTX 2080 Ti Founders Edition (видеокарты, которая повернула многолетнюю тенденцию удешевления FPS вспять) RTX 4090 оказался на 92 % выгоднее (в более подходящем RTX 2080 Ti режиме 1440p — на 56 %). Речь идет о рекомендованных розничных ценах, которые мало что значат в период ажиотажа, но для того, чтобы принять информированное решение о покупке, в любом случае разумно дождаться выхода следующих моделей серии, а лучше еще и конкурирующих продуктов от AMD.

Наконец, пара слов об устройстве GIGABYTE Gaming OC, которое представляет GeForce RTX 4090 в обзоре. Пусть вас не обманывают буквы OC в названии видеокарты: по сравнению с референсными спецификациями заводской разгон здесь гомеопатический. Вручную тактовую частоту чипа AD102 можно подвести вплотную к символической границе 3 ГГц, а видеопамять успешно разгоняется до 23 Гбит/с, но практического смысла в оверклокинге RTX 4090 мы не нашли. Главное, что огромный кулер Gaming OC с запасом перекрывает тепловыделение AD102, но лучше сразу активировать альтернативный BIOS: таким образом вы не потеряете в тактовых частотах, зато видеокарта будет работать тихо (в противном случае это неоправданно шумное устройство).



Оригинал материала: https://3dnews.ru/1076198