Итоги 2014 года: графические ускорители. Мы ждем перемен! / Аналитика

Год 2013-й принес второе поколение мощных GPU, построенных по отточенному техпроцессу 28 нм, — NVIDIA GK110 и AMD Hawaii (последние, между прочим, невиданного до той поры физического размера), а 2014-й мы встретили в ожидании первых продуктов на базе нового техпроцесса. В итоге конвейер 20 нм действительно заработал на тайваньской TSMC, но только лишь для мобильных систем-на-чипе. Как NVIDIA, так и AMD пока стоят в сторонке, хотя и были слухи, что «красные» по традиции первыми сделают рывок и выпустят 20-нанометровые GPU в конце 2014 года. Эти планы теперь отложены на 2015 год, но — если верить слухам, которые все лучше согласуются друг с другом по мере того, как приближается вероятная дата релиза новых устройств, — ожидание сполна вознаградится.

Но будем последовательными. Вспомним же наиболее яркие события в целом застойного для индустрии графики 2014 года, а затем обобщим все, что мы надеемся увидеть в следующем.

⇡#Что было

Дебют NVIDIA Maxwell

Для NVIDIA потенциал техпроцесса 28 нм далеко не исчерпан. В рамках архитектуры Kepler удалось выпустить такой крупный процессор, как GK110, состоящий из 7,1 млрд транзисторов, не выйдя за рамки теплового пакета 250 Вт, который является ориентиром для мощных дискретных GPU. Но Maxwell показал, что еще есть пространство для дополнительных оптимизаций.

В чипах Maxwell NVIDIA переработала топологию потокового мультипроцессора (SMM) — унифицированного строительного блока GPU, упростив логику планировщиков нагрузки. В результате удалось существенно сократить площадь SMM, сохранив около 90% исходной производительности. Как итог — практически удвоенный показатель производительности на единицу мощности в сравнении с Kepler, причем не только на бумаге, но и на практике.

Пока существует четыре десктопных видеоадаптера семейства Maxwell — GeForce GTX 750/750 Ti, GeForce GTX 970 и GTX 980. Остальные позиции в модельном ряду NVIDIA занимают продукты на базе Kepler. В целом «зеленая» линейка сейчас довольно сложно структурирована и включает одновременно представителей серий GeForce 600, GeForce 700 и GeForce 900. Путаницу усиливает тот факт, что NVIDIA пропустила серию GeForce 800 для десктопных адаптеров.

Игровые видеокарты начального уровня GeForce GTX 750 и GTX 750 Ti на чипе GM107 стали пробным шаром для Maxwell, который впервые продемонстрировал потрясающую энергоэффективность новой архитектуры. В тестах GTX 750 Ti одержал победу над GeForce GTX 650 Ti и Radeon R7 260X, энергопотребление которых практически вдвое выше.

NVIDIA GeForce GTX 750 Ti

Гораздо более важно, что NVIDIA удалось перенести преимущества Maxwell на более крупный GPU — GM204. Согласно действующей номенклатуре, это второй по старшинству чип в линейке: он включает 5,2 млрд транзисторов (для сравнения: GK110 — 7,1 млрд). Несмотря на это, GeForce GTX 980 стал эквивалентной заменой GeForce GTX 780 Ti по производительности, притом что по энергопотреблению эта карта сравнима с GeForce GTX 770. Но если посмотреть другой стороны, то на практике GTX 980 не дает практически никакого прироста быстродействия по сравнению с GTX 780 Ti. Единственная реальная польза — это то, что благодаря удешевлению производства цена флагманской платы с одним GPU на момент релиза опустилась до привычной отметки $549.

NVIDIA GeForce GTX 980

GeForce GTX 970, в котором у GM204 отключена часть вычислительных блоков, — в практическом плане куда более интересная карта, чем GTX 980. Блоки, конечно, отключены, но в результате GTX 970 мало уступает в реальной производительности своему старшему родственнику и играет на равных с Radeon R9 290X. При этом официальная цена карты — скромные для без пяти минут флагмана $329.

AMD могла ответить на эту атаку только одним способом — сбросить цены на Radeon R9 290/290X до такого же уровня. Выставить равного соперника для GeForce GTX 980 «красные» пока не в состоянии. Тем не менее AMD сохраняет прочную позицию в сфере GP-GPU (неграфических вычислений), поскольку архитектура GCN изначально заточена под такие приложения. NVIDIA, напротив, в последних итерациях своего кремния сократила управляющую логику, которая имеет большое значение для большинства расчетных задач.

GM204 также наделили специфическими функциями рендеринга, которые NVIDIA использует для ускорения VXGI (Voxel Global Illumination) — метода глобального освещения на базе вокселов, работающего в реальном времени. Демонстрации весьма впечатляют, но, как обычно бывает с эксклюзивными технологиями, внедрение VXGI в реальных играх зависит от того, войдут ли необходимые алгоритмы в новый feature level DirectX 12 (об этом мы поговорим ниже).

VXGI в действии

⇡#Двухчиповые видеоадаптеры на NVIDIA GK110 и AMD Hawaii

Когда одиночные GPU не могут обеспечить прогресс вычислительной мощности, на помощь приходит проверенное решение — двухпроцессорные графические карты. И хотя систему SLI/CrossFire можно было собрать из двух отдельных видеокарт GeForce GTX 780/780 Ti или Radeon R9 290/290X сразу, как только они появились в продаже, двухголовый монстр — это вопрос престижа производителя.

NVIDIA было легче справиться с задачей, ведь GK110 — более холодный чип по сравнению с Hawaii, гордостью AMD. Трехслотовая система охлаждения выглядит пугающе, но благодаря ей GTX TITAN Z может заменить сборку из двух дискретных GTX TITAN Black в одном корпусе. TITAN Z позиционируется как микс игровой и профессиональной видеокарты, что подкрепляют полностью разблокированные блоки FP64 в графических процессорах. Вот только цена обескураживает: ни много ни мало 3 тысячи долларов (на тысячу дороже пары TITAN Black). TITAN Z может быть востребован как ускоритель неграфических вычислений для компактных рабочих станций, но не будем кривить душой: это притянутое за уши оправдание для такой безумной наценки.

NVIDIA GeForce GTX TITAN Z

Работая над конкурирующим продуктом — R9 295X2 — AMD пошла на радикальные меры: два GPU Hawaii на одной плате ничуть не потеряли в частотах по сравнению с одиночными видеокартами, а стало быть, и тепловыделение достигает 300 Вт на брата. Но вместо того чтобы наращивать габариты воздушного кулера, Radeon R9 295X2 сделали первым графическим адаптером, который оснащается системой жидкостного охлаждения в референсной конфигурации.

С практической точки зрения Radeon R9 295X2, оцененный в $1 500 при близкой к показателям TITAN Z производительности, явно выигрывает у последнего. Правда, купить два R9 295X2 для игр по цене одного TITAN Z — бессмысленное предприятие. Сборки из четырех GPU никогда не были рекомендованы для этой цели, и ПО просто не оптимизировано под такие конфигурации. А вот для компактного вычислительного кластера AMD предложила идеальное железо. Благо «красные» не ограничивают GPU Hawaii по производительности в расчетах FP64 в любых продуктах.

AMD Radeon R9 295X2

DirectX 12

Выпустив API Mantle, AMD простимулировала развитие DirectX. До этого момента уже складывалось впечатление, что для наиболее универсального API наступил конец истории. Действительно, крупного обновления DirectX не знал с 2009 года. Грядущий релиз DirectX 12 сосредоточен не на расширении функций рендеринга, а на оптимизации runtime-библиотеки API.

AMD показала, что при определенной нагрузке DirectX 11 является бутылочным горлышком, ограничивающим производительность системы. Речь идет о ситуациях, когда экранное пространство наполнено множеством отдельных объектов, пусть и с простой геометрией. В таком случае время центрального процессора расходуется совсем не так эффективно, как при использовании того же Mantle.

Переработанный конвейер рендеринга Direct3D 12 лишен этого недостатка. Кроме того, API в целом стал более низкоуровневым, чем Direct3D 11. Некоторые функции, которые библиотека Direct3D 11 выполняет сама, теперь возложены на графический движок приложения, что, с одной стороны, дает возможность более эффективно распоряжаться ресурсами, а с другой — усложняет задачу разработчика.

Потенциально все GPU, работающие под управлением DirectX 11, совместимы с DirectX 12. Но следует различать собственно runtime-библиотеку API и новый feature level — набор функций рендеринга. Microsoft приняла в стандарт несколько технологий, которые, впрочем, не будут особо заметны на экране. В будущие GPU их будут внедрять на аппаратном уровне.

Cпецификации API уже финализированы в достаточной степени, чтобы разработчики приложений могли заранее приступить к внедрению DX12. Mircosoft пообещала появление первых игр с поддержкой DX12 в конце 2015 года. Будущее Mantle в связи с этой новостью выглядит туманным, хотя игры с его поддержкой продолжают выходить.

⇡#Что будет

AMD внедряет техпроцесс 20 нм и «трехмерную» память

В 2015-м AMD твердо намерена выпустить коммерчески доступные видеокарты, произведенные по техпроцессу 20 нм. Согласно неофициальным источникам, уже в первой половине года ожидается выход нового флагмана «красных» — Radeon R9 390X на чипе Bermuda. Примечательно, что в качестве подрядчика по производству микросхем слухи указывают не TSMC, а компанию GlobalFoundries, которой AMD некогда владела.

Ожидается, что R9 390X, как и положено наследнику, превзойдет Radeon R9 290X, основанный на GPU Hawaii, по числу вычислительных блоков. Данные совершенно спекулятивные (основаны они отчасти на результатах просочившихся в прессу бенчмарков): 4224 потоковых процессора, 264 текстурных блока, 96 ROP. Напомним, что действующий лидер среди GPU AMD — Hawaii — содержит 2816 потоковых процессоров, 176 текстурных блоков, 64 ROP.

В норме для того, чтобы столь крупный GPU, как Bermuda, смог работать на адекватных частотах, без перехода на более тонкий производственный узел не обойтись. Смущает одно. Если судить по очередному «сливу», AMD укомплектует Radeon R9 390X гибридной воздушно-водяной системой охлаждения. Столь массивное тепловыделение — это явно не то, чего следует ожидать от нового прогрессивного техпроцесса, поэтому оптимисты, ждущие в лице R9 390X первый крупный кристалл, выпущенный по норме 20 нм, могут все же проиграть свои ставки.

Кожух вероятного прототипа AMD Radeon R9 390X

Кстати, прогрессивный техпроцесс — это еще не все, чем нас поразит будущий флагман AMD. Предположительно в R9 390X будет применяться оперативная память типа HBM (High Bandmidth Memory — то же, что и Stacked DRAM) производства SK hynix. В этой технологии несколько кристаллов памяти соединяются сквозными контактами. За счет экономии площади чипа и упрощения разводки платы ширину шины устройства многократно увеличили. Сборка чипов GDDR 5 общей емкостью 1 Гбайт обладает 1024-битной шиной с пропускной способностью 128 Гбайт/с. Radeon R9 390X располагает четырьмя такими сборками, что дает в совокупности 512-533 Гбайт/с (в зависимости от частоты). Для сравнения: в GeForce GTX 780 Ti этот параметр составляет 336 Гбайт/с, а в GTX 980 — всего 224 Гбайт/с.

Графический процессор под кодовым названием Fiji, некогда считавшийся кандидатом на роль нового флагмана AMD, обрел очертания в виде чипа второго эшелона с 3840 потоковыми процессорами, который ляжет в основу адаптера Radeon R9 380X. Как и флагман, R9 380X также получит высокоскоростную память HBM.

NVIDIA: от 28 к 16 нм

Согласно номенклатуре GPU NVIDIA, чип GM204, лежащий в основе действующего флагмана «зеленых», — это продукт второго эшелона. «Инсайды» и следы в базах бенчмарков говорят, что топовый графический процессор в линейке Maxwell получит кодовое название GM200. По свежей информации, чип несет 3072 ядра CUDA и обладает 384-битной шиной памяти. Тактовая частота GPU составляет 1,1/1,39 ГГц. На плате найдут место 12 Гбайт памяти GDDR 5 с эффективной частотой 6 ГГц. Также засветился облегченный вариант адаптера с 2688 ядрами CUDA.

Ожидается, что GM204 повторит путь GK110, топового GPU семейства Kepler, и сперва увидит свет под маркой GeForce GTX TITAN II. Альтернативный вариант позиционирования — GeForce GTX 980 Ti. В архитектуре Maxwell NVIDIA совершила маленькое чудо, увеличив производительность на единицу мощности практически вдвое по сравнению с архитектурой Kepler. Высказываются ожидания, что ускоритель на базе полностью разблокированного чипа GM200 на 50% превзойдет GeForce GTX TITAN Black по вычислительной способности.

Благодаря достоинствам Maxwell NVIDIA в общем-то не испытывает настоятельной необходимости переходить на техпроцесс 20 нм. Скорее всего, GM200 займет нишу с энергопотреблением в районе 250 Вт, которую покинул GK110.

Если судить по предварительным результатам бенчмарков (принимать которые следует со здоровой долей скептицизма), GM200 в полновесной конфигурации можно рассматривать как соперника AMD Bermuda топовой версии XT. И все же продукт AMD имеет зримое преимущество, которое можно отнести на счет высокопроизводительной памяти.

Если предсказания не разойдутся с реальностью, то это значит, что NVIDIA придется уступить лидерство в сфере дискретной графики вплоть до внедрения технологии FinFet 16 нм в топовых GPU. Такая производственная линия уже действует на TSMC, и в конце 2015 — начале 2016 года NVIDIA может пожать первые плоды. Скорее всего, новый техпроцесс будут испытывать на GPU помельче: на сжатой версии GM204 и чипе третьего эшелона семейства Maxwell — GM206.

NVIDIA Pascal

В отдаленной перспективе маячит архитектура Pascal. Нечто похожее на опытный образец NVIDIA показала на GPU Developers Conference в этом году. Плата размером с две кредитки демонстрирует новый форм-фактор для вычислительных кластеров с шиной NVLINK. По сравнению с PCIe 3.0 NVLINK обеспечит троекратное увеличение энергоэффективности и пропускную способность в 5-12 раз больше. NVIDIA заручилась поддержкой IBM, которая внедрит NVLINK в будущих поколениях процессоров Power. С другими производителями CPU ведутся переговоры. Для десктопных компьютеров Pascal будет выпущен в привычном формате платы расширения PCIe.

Прототип платы с GPU Pascal

GPU Pascal, как и будущие продукты AMD, оснащается трехмерными чипами DRAM и принесет радикальное увеличение производительности на ватт по сравнению с архитектурой Maxwell. Никаких подробностей о финальных устройствах и сроках выхода не сообщают.

Приложение. Актуальные линейки дискретных видеоадаптеров AMD и NVIDIA

Дискретные видеоадаптеры AMD
Модель	Графический процессор							Видеопамять				Шина ввода/вывода	TDP, Вт
	Кодовое название	Число транзис-торов, млн	Тех-процесс, нм	Тактовая частота, МГц: High State / Boost State	Число потоковых процессоров	Число текстурных блоков	Число ROP	Разряд-ность шины, бит	Тип микросхем	Тактовая частота: реальная (эффективная), МГц	Объем, Мбайт
Radeon R5 230	Caicos	370	40	625/–	160	8	4	64	GDDR3 SDRAM	533 (1066)	1024/2048	PCI Express 2.1 x16	19
Radeon R7 240	Oland PRO	1040	28	730/780	320	20	8	128	GDDR3/GDDR5 SDRAM	900 (1800) / 1125 (4500)	1024/2048	PCI Express 3.0 x16	30
Radeon R7 250	Oland XT	1040	28	1000/1050	320	20	8	128	GDDR3/GDDR5 SDRAM	900 (1800) / 1150 (4600)	1024/2048	PCI Express 3.0 x16	75
Radeon R7 250X	Cape Verde XT	1500	28	1000/-	640	40	16	128	GDDR5 SDRAM	1125 (4500)	1024/2048	PCI Express 3.0 x16	95
Radeon R7 260	Bonaire	2080	28	-/1000	768	48	16	128	GDDR5 SDRAM	1500 (6000)	1024/2048	PCI Express 3.0 x16	95
Radeon R7 260X	Bonaire XTX	2080	28	-/1100	896	56	16	128	GDDR5 SDRAM	1625 (6500)	1024/2048	PCI Express 3.0 x16	115
Radeon R7 265	Curacao PRO	2800	28	900/925	1024	64	32	256	GDDR5 SDRAM	1400 (5600)	2048	PCI Express 3.0 x16	150
Radeon R9 270	Curacao PRO	2800	28	900/925	1280	80	32	256	GDDR5 SDRAM	1400 (5600)	2048	PCI Express 3.0 x16	150
Radeon R9 270X	Curacao XT	2800	28	1000/1050	1280	80	32	256	GDDR5 SDRAM	1400 (5600)	2048	PCI Express 3.0 x16	180
Radeon R7 280	Tahiti PRO	4313	28	827/933	1792	112	32	384	GDDR5 SDRAM	1250 (5000)	3072	PCI Express 3.0 x16	200
Radeon R9 280X	Tahiti XT2 / Tahiti XTL	4313	28	850/1000	2048	128	32	384	GDDR5 SDRAM	1500 (6000)	3072	PCI Express 3.0 x16	250
Radeon R9 285	Tonga PRO	НД	28	918/-	1792	112	32	256	GDDR5 SDRAM	1375 (5500)	2048	PCI Express 3.0 x16	190
Radeon R9 290	Hawaii PRO	6020	28	-/947	2560	160	64	512	GDDR5 SDRAM	1250 (5000)	4096	PCI Express 3.0 x16	250
Radeon R9 290X	Hawaii XT	6020	28	-/1000	2816	176	64	512	GDDR5 SDRAM	1250 (5000)	4096	PCI Express 3.0 x16	250
Radeon R9 295X2	Vesuvius (2 × Hawaii XT)	2 × 6020	28	НД/1018	2 × 2816	2 × 176	2 × 64	2 × 512	GDDR5 SDRAM	1250 (5000)	2 × 4096	PCI Express 3.0 x16	500

Дискретные видеоадаптеры NVIDIA
Модель	Графический процессор							Видеопамять				Шина ввода/вывода	TDP, Вт
	Кодовое название	Число транзисторов, млн	Тех-процесс, нм	Тактовая частота, МГц: Base Clock / Boost Clock	Число ядер CUDA	Число текстурных блоков	Число ROP	Разряд- ность шины, бит	Тип микросхем	Тактовая частота: реальная (эффективная), МГц	Объем, Мбайт
GeForce GT 610	GF119	292	40	810/-	48	8	4	64	GDDR3 SDRAM	900 (1800)	1024	PCI Express 2.0 x16	29
GeForce GT 730 (128-bit)	GF108	585	40	700/-	96	16	4	128	GDDR3 SDRAM	900 (1800)	1024	PCI-Express 2.0 x16	49
GeForce GT 720	GK208	1300	28	797/-	192	16	8	64	GDDR3 / GDDR5 SDRAM	900 (1800) / 1250 (5000)	1024/2048	PCI-Express 2.0 x16	19
GeForce GT 730 (64-bit)	GK208	1300	28	902/-	384	16	8	64	GDDR3 / GDDR5 SDRAM	900 (1800) / 1250 (5000)	1024/2048	PCI-Express 2.0 x16	23/25
GeForce GT 740	GK107	1300	28	902/-	384	32	16	128	GDDR3 / GDDR5 SDRAM	900 (1800) / 1250 (5000)	1024/2048	PCI-Express 3.0 x16	65
GeForce GTX 750	GM107	1870	28	1020/1085	512	32	16	128	GDDR5 SDRAM	1250 (5000)	1024	PCI-Express 3.0 x16	55
GeForce GTX 750 Ti	GM107	1870	28	1020/1085	640	40	16	128	GDDR5 SDRAM	1350 (5000)	2048	PCI-Express 3.0 x16	60
GeForce GTX 660	GK106	2 540	28	980/1033	960	80	24	192	GDDR5 SDRAM	1502 (6008)	2048	PCI-Express 3.0 x16	140
GeForce GTX 760	GK104	3 540	28	980/1033	1152	96	32	256	GDDR5 SDRAM	1502 (6008)	2048	PCI-Express 3.0 x16	170
GeForce GTX 670	GK104	3 540	28	915/980	1344	112	32	256	GDDR5 SDRAM	1502 (6008)	2048	PCI-Express 3.0 x16	170
GeForce GTX 970	GM204	5 200	28	1050/1178	1664	104	64	256	GDDR5 SDRAM	1750 (7000)	4096	PCI-Express 3.0 x16	145
GeForce GTX 980	GM204	5 200	28	1126/1216	2048	128	64	256	GDDR5 SDRAM	1750 (7000)	4096	PCI-Express 3.0 x16	165
GeForce GTX TITAN Black	GK110	7 100	28	889/980	2880	240	48	384	GDDR5 SDRAM	1750 (7000)	6144	PCI-Express 3.0 x16	250
GeForce GTX TITAN Z	GK110	7 100	28	705/876	2880	240	48	2 × 384	GDDR5 SDRAM	1750 (7000)	2 × 6144	PCI-Express 3.0 x16	375