Обзор видеокарты NVIDIA GeForce RTX 3090: предмет зависти / Видеокарты

В следующем месяце, когда AMD выпустит ускорители Radeon 6000, противостояние между двумя производителям дискретных GPU развернется с новой силой, но уже сейчас очевидно, что NVIDIA сделала очень сильный первый ход. Конечно, поклонникам зеленой марки следовало охладить завышенные ожидания по поводу возможностей GeForce RTX 3080 — первой видеокарты нового семейства, представленной на суд публики. В реальных играх RTX 3080 оказался не настолько силен, как на презентациях чипмейкера, и тем не менее архитектура Ampere повлияла на производительность видеокарт NVIDIA сильнее, чем прорывной для своего времени Maxwell, а в бенчмарках при разрешении 4К или с трассировкой лучей приближается к эталонным достижениям Pascal. А главное, NVIDIA откорректировала ценовую модель RTX 20-й серии, которая не встретила горячего одобрения среди покупателей и, по сути, вынуждала делать апгрейд не ради производительности, не так уж сильно изменившейся по сравнению со старшими моделями GeForce 10 в пересчете на доллар стоимости, а исключительно ради новых функций рендеринга, связанных с аппаратной трассировкой лучей. И что по-настоящему обидно, игры с графическими эффектами на основе рейтрейсинга все еще можно пересчитать по пальцам.

Возможно, грядущие продукты AMD еще заставят нас увидеть Ampere в новом свете, но пока единственным поводом для недовольства новыми видеокартами является их ограниченная доступность и, как следствие, завышенные цены. Но если вдруг именно производительность GeForce RTX 3080 кажется недостаточной, а деньги — второстепенный вопрос, NVIDIA приберегла напоследок более убедительное предложение. Давайте выясним, на какого покупателя рассчитан беспрецедентно мощный (в плане и вычислительного потенциала, и энергопотребления) графический ускоритель, когда всю работу над ошибками прошлого поколения уже сделал, причем на твердую пятерку, RTX 3080.

⇡#Технические характеристики GeForce RTX 3080

Мы посвятили отдельную статью подробному разбору графических процессоров Ampere, которые лежат в основе новых ускорителей NVIDIA, но для тех читателей, которые пропустили на данный момент самое значительное событие в IT-индустрии 2020 года и только сейчас познакомятся с 30-й серией GeForce, приведем краткое резюме основных характеристик графического процессора GA102 и двух старших моделей в линейке RTX 30.

Кристалл GA102 содержит рекордное для чипов потребительской направленности количество транзисторов (28 млрд) и по этому параметру является самым крупным ASIC, который производится в наши дни на коммерческой основе, после истинного флагмана архитектуры Ampere — GA100 (54 млрд). Однако GA100 зарезервирован ускорителями для дата-центров и совершенно не предназначен для игр. Прямой предшественник новинки, чип TU102 семейства Turing, который применяется в GeForce RTX 2080 Ti и TITAN RTX, содержит в полтора раза меньше транзисторов по сравнению с GA102. Тем не менее чипы Ampere отличаются меньшей площадью в пересчете на количество элементов по сравнению с Turing и повышенной энергоэффективностью благодаря миграции производства с 12-нанометрового конвейера TSMC на самсунговский техпроцесс 8 нм.

Структура полностью функционального кристалла GA102 представлена семью блоками GPC (Graphics Processing Cluster, крупнейшими масштабируемыми компонентами массива) вместо шести в составе TU102. Каждый из них по-прежнему содержит 12 потоковых мультипроцессоров (Streaming Multiprocessor), но одно из ключевых архитектурных отличий Ampere от Turing заключается в том, что массив 32-битных CUDA-ядер, обрабатывающих вещественные числа, внутри SM был удвоен. В результате формула главных исполнительных блоков GA102 включает 10 752 FP32-совместимых CUDA-ядра и 336 блоков наложения текстур.

Однако GeForce RTX 3080 комплектуется существенно урезанной разновидностью GA102, в которой осталось только шесть действующих модулей GPC. Кроме того, два из них не полностью укомплектованы SM’ами. В итоге GeForce RTX 3980 располагает 8 704 шейдерными ALU для операций FP32 и 272 блоками наложения текстур. Но даже в таком виде GA102 располагает колоссальным потенциалом сырой вычислительной мощности по сравнению с топ-моделями 20-й серии. NVIDIA вернулась к практике, принятой в годы Kepler и Maxwell, когда ускорители с модельным номером на -80 или -80 Ti по рекомендованной розничной цене $649–699 были основаны на кремнии первого эшелона — в отличие от семейства Turing — и обеспечивали выгодное соотношение быстродействия в играх и цены.

Для тех, кому требуется максимальная производительность для рабочих задач или попросту хочется иметь самое лучшее железо, NVIDIA создала серию TITAN, но в этот раз появление такой видеокарты осталось под вопросом. Дело в том, что флагманский продукт основной линейки GeForce — RTX 3090 — по всем характеристикам близок к пределу возможностей чипа GA102. В кристалле деактивированы только 2 потоковых мультипроцессора, которые в общей сложности содержат 256 CUDA-ядер FP32, или 2 % от всего массива вещественночисленных ALU. Сделано это скорее с целью обеспечить резерв для возможных дефектов фотолитографии, нежели для сегментации модельного ряда с расчетом на будущие продукты. GeForce RTX 3090 и так превосходит TITAN RTX в 2,2 раза по расчетной пропускной способности операций FP32, а если сравнивать с GeForce RTX 2080 Ti, то уже в 2,5 раза.

А вот от следующей по старшинству модели 30-й серии новый флагман отделяет лишь 20 % теоретического быстродействия. Конечно, мы-то уже знаем, какие числа набрал RTX 3090 в игровых бенчмарках, но читатели, знакомые с обзором RTX 3080, тоже вряд ли рассчитывают увидеть на графиках еще 20 % FPS. Недаром NVIDIA избегает прямых сравнений между GeForce RTX 3080 и RTX 3090 в презентациях, посвященных 30-й серии. Есть только диаграмма с данными трех игр (Control, Minecraft с трассировкой лучей и Borderlands 3), в которых RTX 3090 хвастается на 50 % большей FPS по сравнению с TITAN RTX, но их тоже следует оценивать скептически, ведь ни в одном из перечисленных проектов нет встроенного бенчмарка, а условия тестирования могли сильно повлиять на результат.

В качестве нагрузки, адекватной возможностям GeForce RTX 3090, NVIDIA видит игры на экране с разрешением 8К. Учитывая, что за семь лет видеокарты так и не справились с 4К (после каждого рывка производительности выходят проекты, вновь опускающие частоту смены кадров ниже 60 FPS на максималках), нелегко поверить, что RTX 3090 сразу покорится режим 8К. В конце концов, количество пикселов на таком мониторе или телевизоре не вдвое, а вчетверо больше по сравнению с 4К, поэтому NVIDIA ориентируется на сравнительно легкие игры (такие как Apex Legends, Forza Horizon 4 и World of Tanks), которые являются посильной задачей для RTX 3090 в 8К при высоких настойках графики. Для более требовательных проектов, в том числе с трассировкой лучей, ввели особый режим работы DLSS, который подразумевает масштабирование кадра, отрендеренного в разрешении 2560 × 1440, до полного размера в 7580 × 4320 пикселов, а количество пикселов при таком соотношении между внутренним и выходным разрешением отличается 8,8 раза. Конечно, современные реализации DLSS версии 2.0 работают намного лучше ранних попыток и синтезируют настолько качественное изображение в 4К, что только при внимательном рассмотрении фрагментов кадра можно обнаружить ошибки нейросети, но еще более агрессивные алгоритмы, необходимые для 8К, безусловно, являются для DLSS новым вызовом. Когда у нас появится возможность проверить GeForce RTX 3090 в связке с настоящим 8К-экраном, мы обязательно выясним, соответствуют ли притязания NVIDIA действительности, но сегодня ограничимся стандартным набором тестов при разрешении от 1080p до 2160p.

В любом случае RTX 3090 предназначен не только и не столько для игр, сколько для рабочих приложений. В таких задачах, как 3D-моделирование, кодирование видео и, разумеется, машинное обучение, вполне можно рассчитывать на близкий к проектным величинамрост быстродействия между TITAN RTX и GeForce RTX 3090 (особенно в свете архитектурных новшеств Ampere) или даже между RTX 3080 и RTX 3090. Но основным преимуществом RTX 3090 перед RTX 3080 являются 24 Гбайт оперативной памяти. Кроме того, для того, чтобы получить такой объем и обеспечить быстрый доступ к данным почти нетронутому кристаллу GA102, в нем активировали все контроллеры GDDR6X, а совокупная ПСП оценивается в 936 Гбайт/с. Более скоростным интерфейсом VRAM среди игровых и просьюмерских ускорителей может похвастаться только Radeon VII (1 Тбайт/с), оборудованный памятью HBM2.

Наконец, GeForce RTX 3090 оказался единственной видеокартой 30-го семейства, которая поддерживает интерфейс NVLink для прямой коммуникации между двумя GPU. Общая пропускная способность канала осталась практически такой же, как в потребительских ускорителях архитектуры Turing (112,5 Гбайт/ с против 100 Гбайт/с в обе стороны), но это уже другая версия интерфейса, который теперь состоит из четырех линий скоростью 28,13 Гбайт/с вместо двух прежних на 50 Гбайт/с и требует использовать мостики нового образца. Функцию NVLink в RTX 3090 тоже оставили не для игр, а для приложений GP-GPU, которые в состоянии ей воспользоваться, но размер кластера в любом случае ограничен двумя графическими процессорами. Поддержка технологии SLI никуда не делась, но со следующего года NVIDIA не будет выпускать профили для новых игр. Работу с несколькими GPU отдали на откуп разработчикам, которым придется реализовывать функцию mGPU самостоятельно в рамках эксплицитного режима Direct3D 12.

Производитель	NVIDIA
Модель	GeForce RTX 2080	GeForce RTX 2080 SUPER	GeForce RTX 2080 Ti	TITAN RTX	GeForce RTX 3080	GeForce RTX 3090
Графический процессор
Название	TU104	TU104	TU102	TU102	GA102	GA102
Микроархитектура	Turing	Turing	Turing	Turing	Ampere	Ampere
Техпроцесс	12 нм FFN	12 нм FFN	12 нм FFN	12 нм FFN	8 нм (8N)	8 нм (8N)
Число транзисторов, млн	13 600	13 600	18 600	18 600	28 300	28 300
Тактовая частота, МГц: Base Clock / Boost Clock	1 515/1 710 (Founders Edition: 1 515/1 800)	1 650/1 815	1 350/1 545 (Founders Edition: 1 350/1 635)	1 350/1 770	НД /1 710	НД /1 695
Шейдерные ALU	2 944	3 072	4 352	4 608	8 704	10 496
Блоки наложения текстур (TMU)	184	192	272	288	272	328
Блоки операций растеризации (ROP)	64	64	88	96	96	112
Тензорные ядра	368	384	544	576	272	328
RT-ядра	46	48	68	72	68	82
Оперативная память
Разрядность шины, бит	256	256	352	384	320	384
Тип микросхем	GDDR6 SGRAM	GDDR6 SGRAM	GDDR6 SGRAM	GDDR6 SGRAM	GDDR6X SGRAM	GDDR6X SGRAM
Тактовая частота, МГц (пропускная способность на контакт, Мбит/с)	1 750 (14 000)	1 937,5 (15 500)	1 750 (14 000)	1 750 (14 000)	1 188 (19 000)	1 219 (19 500)
Объем, Мбайт	8 192	8 192	11 264	24 576	10 240	24 576
Шина ввода/вывода	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16
Производительность
Пиковая производительность FP32, GFLOPS (из расчета максимальной указанной частоты)	10 069/10 598 (Founders Edition)	11 151	13 448/14 231 (Founders Edition)	16 312	29 768	35 581
Производительность FP64/FP32	1/32	1/32	1/32	1/32	1/32	1/32
Производительность FP16/FP32	2/1	2/1	2/1	2/1	1/1	1/1
Пропускная способность оперативной памяти, Гбайт/с	448	496	616	672	760	936
Вывод изображения
Интерфейсы вывода изображения	DisplayPort 1.4a, HDMI 2.0b	DL DVI-D, DisplayPort 1.4a, HDMI 2.0b	DisplayPort 1.4a, HDMI 2.0b	DisplayPort 1.4a, HDMI 2.0b	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1
TBP/TDP, Вт	215/225 (Founders Edition)	250	250/260 (Founders Edition)	280	320	350
Розничная цена (США, без налога), $	699 (рекоменд.)/ 799 (Founders Edition) — в момент выхода	699 (рекоменд. в момент выхода)	999 (рекоменд.)/ 1 199 (Founders Edition) — в момент выхода	2 499	699 (рекоменд. в момент выхода)	1499 (рекоменд. в момент выхода)
Розничная цена (Россия), руб.	63 990 (Founders Edition в момент выхода)	56 990 (рекоменд. в момент выхода)	95 990 (Founders Edition в момент выхода)	221 990 (в момент выхода)	63 490 (nvidia.ru)	136 990 (nvidia.ru)

Последняя характеристика GeForce RTX 3090, которой осталось уделить внимание, прежде чем мы рассмотрим тестовый образец видеокарты, — это энергопотребление. Согласно оценкам чипмейкера, производительность чипов Ampere на ватт мощности в благоприятных случаях увеличилась на 90 % по сравнению с Turing. Однако в нашем собственном исследовании GeForce RTX 3080 всего лишь на 8 % превосходит по энергоэффективности GeForce RTX 2080 Ti и на 21 % — RTX 2080 SUPER, если речь идет об игровой нагрузке. Флагманская модель обязана превзойти эти результаты благодаря тому, что в ней используется почти целиком активированная версия GA102. И все же RTX 3090 — чрезвычайно прожорливая видеокарта, рассчитанная на энергопотребление вплоть до 350 Вт против 320 Вт у RTX 3080.

Наконец, стоит в очередной раз прокомментировать рекомендованные цены ускорителей 30-й серии. Чемпионскому ускорителю назначили беспрецедентно высокую по меркам потребительских видеокарт (по крайней мере, одночиповых) цену в $1 499. Тем не менее и эта новинка представляет собой более выгодное предложение по сравнению с ее прямым аналогом из прошлого поколения, TITAN RTX, который стоил уже $2 499. Не исключено, что чипмейкер вернется к прежним ценам, если выпустит настоящий TITAN на основе GA102, но появление такой видеокарты под вопросом из-за того, что NVIDIA пока не может предложить профессионалам, которым адресованы «Титаны», ощутимых преимуществ перед теми характеристиками, которыми обладает GeForce RTX 3090. Сам графический процессор здесь работает почти на пике своего потенциального быстродействия, а увеличить объем оперативной памяти до 48 Гбайт будет возможно лишь тогда, когда Micron откроет производство 16-гигабитных чипов GDDR6X. По слухам, такие видеокарты обязательно появятся, только с обычной памятью GDDR6 и в рамках серии Quadro, которой важнее именно объем, нежели повышенная пропускная способность GDDR6X.

В то время как ускорители TITAN производятся по заказу NVIDIA исключительно в референсном дизайне, партнерам чипмейкера дали добро на разработку собственных версий GeForce RTX 3090 наравне с младшими моделями 30-го семейства. Одно из таких устройств, Palit GeForce RTX 3090 GamingPro OC, представит действующий флагман игровых и просьюмерских решений NVIDIA в тестах производительности. Как и GeForce RTX 3080 того же производителя, эта видеокарта заранее разогнана, но о том, что заводской оверклокинг даст RTX 3090 несправедливое преимущество по сравнению с видеокартами прошлых поколений, беспокоиться не стоит. Оба устройства Palit — и RTX 3080, и RTX 3090 — разогнаны всего лишь на 30 МГц по расчетной тактовой частоте в типичной нагрузке (Boost Clock) и, что более важно для производительности современных ускорителей, работают в пределах штатного резерва мощности 320 и 350 Вт соответственно.

⇡#Palit GeForce RTX 3090 GamingPro OC: конструкция, комплект поставки

По конструкции кулера и ряду основных характеристик версия GeForce RTX 3090, представленная Palit под маркой GamingPro, является копией RTX 3080, которую мы рассмотрели на прошлой неделе. В отличие от NVIDIA, которая предусмотрела в устройствах Founders Edition различные системы охлаждения — одну для RTX 3080 и другую, помощнее, для RTX 3090, большинство независимых производителей изготавливают видеокарты по одному и тому же шаблону.

Неспроста Palit водрузила на чип GA102 такую мощную систему охлаждения. Видеокарта занимает три корпусных слота расширения, а для того, чтобы под тяжестью радиатора не провисал свободный край печатной платы, нужно воспользоваться акриловой подпоркой, которая входит в комплект поставки RTX 3080 и RTX 3090 серии GamingPro OC.

Не будем утомлять читателей чрезмерно подробным описанием дизайна и системы охлаждения видеокарты, когда почти такое же устройство мы изучили на прошлой неделе, но вкратце перечислим его ключевые особенности. Palit известна российским покупателям доступными ценами, зачастую именно ее видеокарты занимают нижние строчки прайс-листов той или иной модели, но вместе с тем мы уже не раз убеждались в том, что эта компания умеет экономить на второстепенных функциях устройств, не пренебрегая качеством наиболее важных компонентов, и совершенствует свою продукцию с каждым поколением графических процессоров.

Ускорители на чипах GA102 требуют особой ответственности, ведь на этот раз NVIDIA не постеснялась увеличить потребляемую мощность вплоть до 350 Вт, а миграция на новый тип памяти GDDR6X влечет за собой отдельные сложности. Не удивительно, что Palit совершила очередной шаг вперед в конструкции системы охлаждения, достоинства которой не исчерпываются большим радиатором, который обдувают три вентилятора диаметром 95 мм.

Микросхемы GDDR6X нужно распаивать как можно ближе к подложке графического процессора в связи с повышенными требованиями интерфейса к соотношению «сигнал — шум». Как следствие, можно собирать видеокарты на укороченных печатных платах, а освободившуюся площадь использовать для сквозного продува радиатора — так сделано и в Founders Edition, и в Palit GamingPro.

В остальном перед нами вполне типичный, разве что очень крупный даже по стандартам предыдущего поколения, двухсекционный радиатор, пронизанный несколькими U-образными теплотрубками. В отличие от Founders Edition, здесь не используется такой дорогостоящий элемент, как испарительная камера, а тепло с графического процессора снимает никелированная медная подошва. Микросхемы памяти и силовые каскады регулятора напряжения накрыты массивной алюминиевой рамой, сопряженной с основным радиатором, а дроссели VRM — прямо с оребрением последнего через термопрокладки.

В связи с тем, что чипы оперативной памяти в GeForce RTX 3090 распаяны с обеих сторон печатной платы, крышка на обратной стороне установлена не только для красоты и защиты компонентов, но и для охлаждения VRAM.

Новый кулер видеокарт Palit со сквозным продувом радиатора хорошо зарекомендовал себя в тестах GeForce RTX 3080: он одновременно обеспечивает и умеренную температуру GPU, и низкий уровень шума. Тем не менее RTX 3090 в пике энергопотребления достигает уже не 320, а 350 Вт. Посмотрим, какие результаты нас ждут в этот раз. Во всяком случае, предупреждаем потенциальных владельцев GeForce RTX 3080 и особенно RTX 3090 о том, что корпус компьютера, в котором поселится такая видеокарта, должен иметь исключительно качественную вентиляцию. Воздух, насквозь проходящий через радиатор GPU, попадает в зону центрального процессора, а средств для того, чтобы извлекать тепло наружу, у Palit GamingPro нет: все радиаторные ребра проходят параллельно крепежной планке видеокарты, а прорези в ней, таким образом, являются чисто декоративными.

⇡#Palit GeForce RTX 3090 GamingPro OC: печатная плата

Судя по разводке печатных плат GeForce RTX 3080, фотографии которых появились в интернете после релиза 30-й серии, многие производители, включая Palit, взяли за основу PCB референсный дизайн (не путать с картами Founders Edition, выделяющимся из основой массы еще сильнее, чем в 20-й серии), который NVIDIA распространила среди партнеров, чтобы поскорее наладить выпуск ускорителей нового поколения.

Палитовский вариант GeForce RTX 3090 представляет собой то же самое, только с поправкой на увеличенное число микросхем оперативной памяти, которые распаяны с двух сторон текстолита и работают в clamshell-режиме. Кстати, чипов GDDR6X с номинальной пропускной способностью 19,5 Гбит/с Micron не производит. Все разновидности RTX 3090 комплектуются памятью, рассчитанной на 21 Гбит/с, но ее действительную пропускную способность уменьшили до 19,5 в интересах стабильности, а это неплохой задел для разгона.

Помимо 24 Гбайт оперативной памяти, печатная плата Palit GeForce RTX 3090 GamingPro OC отличается от PCB следующей по старшинству модели того же производителя усиленными регуляторами напряжения. Разводка PCB позволяет организовать 16-фазное питание графического процессора при помощи двух восьмифазных контроллеров On Semiconductor NCP81610, каждый из которых обслуживает свою порцию кристалла GA102. Памяти GDDR6X выделено вплоть до четырех фаз, но компоненты одной фазы питания GPU и одной VRAM — то, на чем Palit нашла возможность сэкономить. В фазах питания графического процессора применяются силовые каскады AOZ5311NQI от Alpha & Omega с номинальным током 50 А.