Обзор и тестирование видеокарты NVIDIA GeForce GTX 1080 Ti: бой с тенью / Видеокарты

NVIDIA применяет эту стратегию не в первый раз: когда происходит очередная смена техпроцесса или архитектуры графических процессоров, верхнюю позицию в новой линейке геймерских видеокарт какое-то время занимает устройство на чипе второго эшелона. Флагманский GPU сперва появляется в составе просьюмерского ускорителя под маркой TITAN, а затем, с теми или иными потерями вычислительных блоков и функций, доходит и до игровых моделей. Однако различия в технических характеристиках между очередным TITAN и очередным игровым флагманом на том же GPU в каждом поколении видеокарт уникальны.

В эпоху Kepler, которая породила первый «Титан» четыре года тому назад, GeForce GTX 780 и GTX TITAN были меньше всего похожи друг на друга. Помимо существенной разницы в наборе вычислительных блоков, игровая видеокарта получила вдвое меньше оперативной памяти и в восемь раз медленнее выполняла расчеты двойной точности (FP64). На базе архитектуры Maxwell NVIDIA уже не стала выпускать процессор, охватывающий одновременно графические задачи и вычисления двойной точности, поэтому GTX 980 Ti отличается от GeForce GTX TITAN X лишь объемом RAM и обладает практически эквивалентной производительностью в играх.

С приходом Pascal, впервые в своей истории, NVIDIA разделила GPU высшего эшелона на профессиональную и игровую категории. Переход на технологию 16 нм FinFET позволил выпустить процессор с беспрецедентным числом вычислительных блоков и уровнем быстродействия — GP100. Однако последний применяется лишь в ускорителях Quadro и Tesla, и вероятность увидеть его под маркой GeForce стремится к нулю. Альтернативный вариант «большого ядра», GP102, лишен архитектурных элементов и функций, важных для вычислительных задач, но вместе с тем не уступает GP100 в пропускной способности операций FP32, которые лежат в основе шейдерного кода 3D-приложений.

GP102 уже проявил себя в составе обновленного TITAN X, который, в неменьшей степени, чем игровой видеокартой, является ускорителем вычислений, приоритетом среди которых на этот раз стало применение моделей ИИ, созданных методом глубинного обучения (inference). Но, глядя на TITAN X, предсказать, каким окажется GTX 1080 Ti, было не так-то просто.

Дело в том, что NVIDIA не оставила себе большого пространства для маневра между GTX 1080 и TITAN X. Если судить по пиковой пропускной способности операций FP32 (что, разумеется, не является исчерпывающей характеристикой GPU), TITAN X лишь на 24% превосходит GeForce GTX 1080, в то время как разница между GTX 980 и GeForce GTX TITAN X по этому параметру составляла 35%. Если бы в поколении Pascal разработчики решили сколь-либо существенно сократить вычислительные ресурсы TITAN X, у NVIDIA получился бы довольно неубедительный флагман игровой линейки.

С другой стороны, в TITAN X ни частотный потенциал, ни набор функциональных блоков GP102 не раскрыты полностью, поэтому GeForce GTX 1080 Ti вполне мог оказаться быстрее, чем TITAN X, ведь NVIDIA когда-то поступила точно так же с GeForce GTX 780 Ti и первым TITAN. А в результате случилось нечто неожиданное: GeForce GTX 1080 Ti действительно урезали блоки GPU по сравнению с TITAN X, однако не те блоки, которых это обычно касается. Вместе с тем пиковая производительность GTX 1080 Ti, по крайней мере на бумаге, выше. Более того, у игровой видеокарты есть и другие, уже не столь очевидные преимущества.

GPU

Кристалл GP102, произведенный по норме 16 нм FinFET на мощностях TSMC, содержит 12 млрд транзисторов на площади 471 мм². Параметры следующего по рангу чипа в линейке Pascal, GP104, намного скромнее — 7,2 млрд транзисторов и 314 мм².

Однако структура вычислительных блоков GP102 повторяет таковую у чипа GP104, с учетом количественных изменений на высшем уровне архитектуры, так что весь дополнительный транзисторный бюджет в GP102 пошел на увеличение быстродействия в графике и иных вычислениях, опирающихся на формат данных FP32. Отдельно взятый SM (Streaming Multiprocessor) в GP102 и GP104 содержит 128 ядер CUDA для операций FP32, четыре FP64-совместимых ядра и одно ядро, способное выполнять две инструкции FP16 одновременно. Кроме того, в SM входят 40 блоков наложения текстур, 96 Кбайт разделяемой памяти и 48 Кбайт кеша L1.

Всего GP102 содержит 30 блоков SM, которые в сумме дают конфигурацию из 3840 ядер CUDA одинарной точности и 240 текстурников. Back-end конвейера представлен двенадцатью 32-битными контроллерами памяти GDDR5/5X (384-битная шина), с каждым из которых ассоциированы 8 ROP и секция кеша L2 объемом 256 Кбайт (3072 Кбайт на весь GPU).

Блок-схема NVIDIA GP102 в GeForce GTX 1080 Ti

По поводу отличий архитектуры Pascal от Maxwell рекомендуем обратиться к нашему обзору GeForce GTX 1080. В этой итерации разработчики развили достоинства предыдущего поколения и компенсировали присущие ему недостатки. Кратко перечислим наиболее существенные изменения:

улучшенная компрессия цвета с соотношениями вплоть до 8:1;
функция Simultaneous Multi-Projection геометрического движка PolyMorph Engine, позволяющая за один проход создавать вплоть до 16 проекций геометрии сцены (для VR и систем с несколькими дисплеями в конфигурации NVIDIA Surround);
возможность прерывания (preemption) в процессе исполнения draw call (при рендеринге) и потока команд (при вычислениях), которая вместе с динамическим распределением вычислительных ресурсов GPU обеспечивает полноценную поддержку асинхронных вычислений (Async Compute) — дополнительного источника быстродействия в играх под API DirectX 12 и сниженной латентности в VR;
контроллер дисплея, совместимый с интерфейсами DisplayPort 1.3/1.4 и HDMI 2.b. Поддержка высокого динамического диапазона (HDR);
шина SLI с повышенной пропускной способностью.

Добавим к этому списку технологию, которая была секретным ноу-хау последних архитектур NVIDIA, но вслед за независимым расследованием, результаты которого распространились в интернете, компания раскрыла свои карты. Помимо мощной компрессии цвета, Архитектуры Maxwell и Pascal используют разновидность тайлового рендеринга для экономии пропускной способности памяти (ПСП).

Классический тайловый рендеринг, широко распространенный в мобильных GPU, подразумевает обработку кадра в два прохода. Сначала драйвер разделяет экранное пространство на тайлы (участки с типичным размером 16 × 16 или 32 × 32 пиксела) и составляет индекс полигонов, находящихся в проекции каждого тайла. Затем последовательно в пределах каждого тайла целиком выполняется процедура рендеринга — от трансформации и пересечения полигонов до заполнения текстур и исполнения шейдеров — и конечный результат всех тайлов сшивается в единую картинку. Преимущество такого метода состоит в том, что любые промежуточные операции в пределах тайла оперируют единым массивом данных, который целиком помещается в кеш GPU, а следовательно, сокращается частота обращений к оперативной памяти.

Тем не менее, необходимость в двух проходах обработки геометрии сцены сама по себе расходует пропускную способность RAM, поскольку GPU необходимо сначала записать во внешнюю память информацию о полигонах, попадающих в тот или иной тайл, а затем, выполняя рендеринг от тайла к тайлу, извлекать ее обратно. Как следствие, эффективность тайлового рендеринга в конечном счете зависит от того, перевешивает ли экономия ПСП на скорости заполнения пикселов ее потери на двухпроходную проекцию геометрии. В мобильных приложениях, отличающихся простой геометрией, тайловый рендеринг оправдывает себя, но для современных десктопных игр лучше подходит стандартный метод мгновенного (immediate) рендеринга, при котором в едином экранном пространстве происходит последовательная растеризация одного полигона за другим.

В конвейере Maxwell и Pascal сочетаются лучшие черты обеих методов рендеринга. NVIDIA тоже использует тайлы, но в данном случае отрисовка кадров, как и в других десктопных архитектурах, не требует отдельной стадии сортировки (binning) всех полигонов, принадлежащих кадру, между тем или иным тайлом. Вместо этого GPU сначала целиком выполняет трансформацию геометрии сцены, а остальные этапы рендеринга происходят тайл за тайлом. При этом размер и количество тайлов, которые обрабатываются одновременно, определяется динамически по мере заполнения очереди геометрии фиксированной длины — таким образом, чтобы все данные помещались в кеш L2.

⇡#Технические характеристики, цены

Как и TITAN X, GTX 1080 Ti не располагает полностью функциональной версией графического процессора. Производитель заблокировал два из 30 SM в GPU обеих видеокарт. Таким образом, front-end чипа и, следовательно, теоретическая пропускная способность в операциях за такт в GTX 1080 Ti ничуть не пострадали по сравнению с TITAN X. Однако в GTX 1080 Ti отключен один из 12 контроллеров RAM, а вместе с ним — 8 ROP и секция кеша L2. Как следствие, шина памяти GPU уменьшилась с 384 до 352 бит и видеокарта оснащается лишь 11 вместо 12 Гбайт GDDR5X.

Тем не менее GTX 1080 Ti отыграл потерянную пропускную способность RAM за счет увеличенной частоты шины — с 10 000 до 11 000 Мбит/с на контакт. Кроме того, NVIDIA подняла частоты GPU: базовую на 63 МГц и Boost Clock — на 51 МГц. Таким образом, единственным параметром, который дифференцирует GTX 1080 Ti от TITAN X в рендеринге графики, остается объем L2.

А что насчет вычислительных задач? Здесь, в отличие от игр, может возникнуть такая ситуация, когда дополнительный гигабайт RAM имеет значение. Удивительно другое: NVIDIA нисколько не ограничила скорость работы GTX 1080 Ti с различными форматами данных. GP102 и без того не подходит для «боевых» расчетов на основе данных FP64 и FP16 (скорость исполнения на уровне 1/32 и 1/64 от FP32), зато как TITAN X, так и GTX 1080 Ti выполняют за такт вчетверо больше операций int8 по сравнению с FP32. До появления GTX 1080 Ti только TITAN X в потребительской линейке NVIDIA поддерживал int8 — инструкции, применяемые для обработки данных моделями глубинного обучения.

Производитель	NVIDIA
Модель	GeForce GTX 980 Ti	GeForce GTX TITAN X	GeForce GTX 1080	GeForce GTX 1080 Ti	TITAN X
Графический процессор
Название	GM200	GM200	GP104	GP102	GP102
Микроархитектура	Maxwell	Maxwell	Pascal	Pascal	Pascal
Техпроцесс, нм	28 нм	28 нм	16 нм FinFET	16 нм FinFET	16 нм FinFET
Число транзисторов, млн	8 000	8 000	7 200	12 000	12 000
Тактовая частота, МГц: Base Clock / Boost Clock	1 000 / 1 076	1 000 / 1 089	1 607 / 1 733	1 480 / 1582	1 417 / 1531
Число шейдерных ALU	2 816	3 072	2 560	3 584	3 584
Число блоков наложения текстур	176	192	160	224	224
Число ROP	96	96	64	88	96
Оперативная память
Разрядность шины, бит	384	384	256	352	384
Тип микросхем	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5X SDRAM	GDDR5X SDRAM	GDDR5X SDRAM
Тактовая частота, МГц (пропускная способность на контакт, Мбит/с)	1 753 (7 012)	1 753 (7 012)	1 250 (10 000)	1 376,25 (11 010)	1 250 (10 000)
Объем, Мбайт	6 144	12 288	8 192	11 264	12 288
Шина ввода/вывода	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16
Производительность
Пиковая производительность FP32, GFLOPS (из расчета максимальной указанной частоты)	6 060	6 691	8 873	11 340	10 974
Производительность FP32/FP64	1/32	1/32	1/32	1/32	1/32
Пропускная способность оперативной памяти, Гбайт/с	336	336	320	484	480
Вывод изображения
Интерфейсы вывода изображения	DL DVI-I, DisplayPort 1.2, HDMI 1.4a	DL DVI-I, DisplayPort 1.2, HDMI 1.4a	DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b	DisplayPort 1.3/1.4, HDMI 2.0b	DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
TDP, Вт	250	250	180	250	250
Рекомендованная розничная цена (США, без налога), $	649 (на момент выхода)	999 (на момент выхода)	На момент выхода: 599 / 699 (FE) Новая цена: 499 / 549 (FE)	699	1 200
Рекомендованная розничная цена (Россия), руб.	39 990 (на момент выхода)	74 900 (на момент выхода)	На момент выхода: 54 990 (FE) Новая цена: 45 790 (FE)	52 990 (FE)	89 990

GTX 1080 Ti и TITAN X разделяет довольно зыбкая граница, и это, с одной стороны, хорошая новость для энтузиастов, которые решили повременить с апгрейдом старой видеокарты на Pascal в ожидании топового ускорителя. С другой стороны, высокая производительность отражается на цене видеокарты. GTX 1080 Ti стал третьим однопроцессорным GeForce после GTX 780 Ti и GTX 1080 Founders Edition, достигшим отметки $699. Цена в российском онлайн-магазине компании составляет 52 990 руб. Кроме того, NVIDIA на этот раз не делает различий между видеокартой референсного дизайна (Founders Edition) и партнерскими образцами, которые появятся позже и получат точно такой же рекомендованный ценник.

В то же время NVIDIA сделала более доступными GeForce GTX 1070 и GTX 1080. На момент выхода последние были оценены в $379/449 и $599/699 (партнерские карты и Founders Edition соответственно), а теперь продаются за $349/399 и $499/549. Российские цены видеокарт на сайте NVIDIA снизились с 34 990 54 990 до 31 590 и 45 790 руб.

Вместе с тем NVIDIA объявила, что производители видеокарт получат возможность оснащать свои версии GeForce GTX 1060 и GTX 1080 более скоростными чипами GDDR5/5X: 9 вместо 8 Гбит/с для GTX 1060 и 11 вместо 10 Гбит/с — для GTX 1080. Референсные спецификации моделей при этом остались неизменными, просто у партнеров, закупающих у NVIDIA чипы памяти вместе с GPU для установки на собственные платы, появился выбор. Судя по тому, как редко мы видим на видеокартах оригинального дизайна микросхемы RAM, отличные от тех, которыми оснащаются референсные ускорители, такой ход NVIDIA действительно может сделать заводской разгон видеопамяти более распространенным явлением.

⇡#Конструкция

Поскольку предтечей GeForce GTX 1080 Ti является TITAN X, не удивительно, что различия в облике видеокарт минимальны. GTX 1080 Ti отличается от полностью черного «Титана» стандартно-серебристым цветом кожуха, а внутри — точно такой же радиатор с испарительной камерой и вентилятор радиального типа. Эта конструкция хорошо зарекомендовала себя еще во времена первого TITAN и GeForce GTX 780/780 Ti. Обладая выдающимися акустическими характеристиками для данного типа системы охлаждения, референсные видеокарты NVIDIA выделяются среди партнерских устройств, т. к. последние практически всегда оснащаются кулером открытой конструкции. При этом закрытая «турбинка» остается лучшим вариантом для компактных ПК, где важно, чтобы видеокарта выбрасывала большую часть воздуха наружу. Кроме того, референсный кулер гарантирует охлаждение микросхем памяти и множества других горячих точек платы за счет массивного алюминиевого основания.

Начиная с GeForce GTX 1080, видеокарты NVIDIA, совместимые с режимом SLI, позволяют удалить часть металлической пластины, которой покрыта обратная сторона печатной платы, чтобы воздух свободно проникал к системе охлаждения соседней видеокарты.

Несмотря общую с TITAN X конструкцию системы охлаждения, у GTX 1080 Ti есть одна очевидная особенность: NVIDIA удалила порт DL-DVI с внешней панели видеокарты. Весь набор выходов, который остался на GTX 1080 Ti, ограничивается тремя разъемами DisplayPort 1.3/1.4 и одним HDMI 2.0b. Зато вся половина пластины теперь задействована для вывода горячего воздуха за пределы корпуса ПК, что должно положительно сказаться на эффективности охлаждения. Для тех, кто все еще пользуется монитором без разъемов DisplayPort или HDMI, NVIDIA прилагает к GeForce GTX 1080 Ti Founders Edition переходник с интерфейса DP на Single-Link DVI.

⇡#Плата

Как и система охлаждения, оснастка печатной платы GeForce GTX 1080 Ti не только не ухудшилась по сравнению с TITAN X, но и стала лучше. Повышенная пропускная способность оперативной памяти в GTX 1080 Ti достигнута за счет новых чипов Micron (маркировка MT58K256M321JA-110), для которых эффективная частота 11 Гбайт/с является штатной. К слову, в каталоге Micron есть и память GDDR5X с частотой 12 Гбайт/с, но, выбрав наиболее скоростные чипы, NVIDIA, вероятно, пришлось бы исчерпать резерв надежности контроллеров RAM в составе GPU.

Что остается неизменным в преобразователе напряжения видеокарт NVIDIA, так это ШИМ-контроллер uP9511 от uPI Semiconductor, который на GTX 1080 Ti обслуживает максимальное для своих возможностей число фаз — семь, все из которых принадлежат схеме питания GPU. Две фазы чипов GDDR5X управляются контроллером uP1685. Однако и в силовой части видеокарты есть изменения. NVIDIA поместила на печатную плату ряд элементов, которые отсутствовали в TITAN X, в первую очередь — удвоила все полевые транзисторы в «фазах» питания GPU, что должно положительно отразиться на КПД преобразователя.