Стр.1 - Архитектура и технологии
Авторы:
Антон Рачко,
Владимир Романченко
Сегодня официальным пресс-релизом компания NVIDIA уведомила о выпуске нового поколения графических карт семейства GeForce GTX 200 на базе второго поколения унифицированной визуально-вычислительной архитектуры - GeForce GTX 280 и GeForce GTX 260. Первый образец видеокарты на базе чипа GeForce GTX 280 уже побывал в нашей лаборатории, и мы уже готовы поделиться с нашими читателями первыми результатами тестирования и впечатлениями от новой архитектуры NVIDIA.
Но прежде чем перейти к графикам и выводам, предлагаем вашему вниманию описание собственно архитектуры графических чипов семейства GeForce GTX 200, а также новых и обновлённых технологий NVIDIA и ряда новых инициатив, впервые объявленные в рамках сегодняшнего анонса. Для любителей "перемотать" статью сразу же к выводам отдельно хотелось бы подчеркнуть: в этот раз компанией NVIDIA объявлена не только обновлённая архитектура, но и в некотором смысле новая философия графической архитектуры, с далеко идущими последствиями.
Однако вначале о технических особенностях. Являясь логичным развитием серий GeForce 8 и GeForce 9, представлявших первое поколение унифицированной визуальной вычислительной архитектуры NVIDIA, новинки семейства GeForce GTX 200 выполнены на базе второго поколения этой архитектуры.
Графические процессоры NVIDIA GeForce GTX 280 и 260 представляют собой наиболее массивные и сложные графические чипы из известных доселе – шутка ли, 1,4 миллиарда транзисторов в каждом! Наиболее производительное решение - GeForce GTX 280, обладает 240 шейдерными процессорами, 80 текстурными процессорами, поддерживает до 1 Гб видеопамяти. Подробные характеристики чипов GeForce GTX 280 и GeForce GTX 260 приведены в таблице ниже.
Спецификации NVIDIA GeForce GTX 280 и GTX 260 |
Графическое ядро |
GTX 280 |
GTX 260 |
Нормы технологического процесса | 65 нм |
Количество транзисторов |
1,4 млрд. |
Тактовая частота графики (в т.ч. диспетчера, модулей текстур и ROP) |
602 МГц |
576 МГц |
Тактовые частоты процессорных модулей |
1296 МГц |
1242 МГц |
Количество процессорных модулей |
240 |
192 |
Тактовая частота памяти (частота/данные) |
1107 МГц / 2214 МГц |
999 МГц / 1998 МГц |
Ширина интерфейса памяти |
512 бит |
448 бит |
Пропускная способность шины памяти |
141,7 Гб/с |
111,9 Гб/с |
Объём памяти |
1 Гб |
896 Мб |
Количество модулей ROP |
32 |
28 |
Количество модулей текстурной фильтрации |
80 |
64 |
Производительность модулей текстурной фильтрации |
48,2 Гигатекселей/с |
36,9 Гигатекселей/с |
Поддержка HDCP |
Есть |
Поддержка HDMI |
Есть (адаптер DVI-HDMI) |
Интерфейсы |
2 x Dual-Link DVI-I
1 x 7-контактный HDTV |
RAMDAC, МГц |
400 МГц |
Шина |
PCI Express 2.0 |
Форм-фактор |
Два слота |
Конфигурация разъёмов питания |
1 x 8-контактный 1 x 6-контактный |
2 x 6-контактных |
Максимальное энергопотребление |
236 Вт |
182 Вт |
Граничная температура GPU |
105°C |
Фактически современное графическое ядро семейства GeForce GTX 200 можно представить как универсальный чип, поддерживающий два разных режима – графический и вычислительный. Архитектуру чипов семейств GeForce 8 и 9 обычно представляют массивами масштабируемых процессоров (Scalable Processor Array, SPA). Архитектура чипов семейства GeForce GTX 200 основана на доработанной и улучшенной архитектуре SPA, состоящей из ряда так называемых "кластеров обработки текстур" (TPC, Texture Processing Clusters) в графическом режиме или "кластеров обработки потоков" в режиме параллельного вычисления. При этом каждый модуль TPC состоит из массива потоковых мультипроцессоров (SM, Streaming Multiprocessors), и каждый SM содержит восемь процессорных ядер, также называемых потоковыми процессорами (SP, Streaming Processor), или тредовыми процессорами (TP, Thread Processor). Каждый SM также включает в себя процессоры текстурной фильтрации для графического режима, также используемый для различных операций фильтрации в вычислительном режиме.
Ниже представлена блок-схема GeForce 280 GTX в традиционном графическом режиме.
Переключаясь в вычислительный режим, аппаратный диспетчер потоков (вверху) управляет тредами TPC.
Кластер TPC при ближайшем рассмотрении: распределённая память для каждого SM; каждое процессорное ядро SM может распределять данные между другими ядрами SM посредством распределённой памяти, без необходимости обращения к внешней подсистеме памяти.
Таким образом, унифицированная шейдерная и компьютерная архитектура NVIDIA использует две совершенно разные вычислительные модели: для работы TPC используется MIMD (multiple instruction, multiple data), для вычислений SM - SIMT (single instruction, multiple thread), продвинутая версия, SIMD (single instruction, multiple data).
Касаясь общих характеристик, по сравнению с предшествовавшими поколениями чипов семейство GeForce GTX 200 обладает следующими преимуществами:
- Возможность обработки втрое большего количества потоков данных в единицу времени
- Новый дизайн планировщика выполнения команд, с повышенной на 20% эффективностью обработки текстур
- 512-битный интерфейс памяти (384 бита у предыдущего поколения)
- Оптимизированный процесс z-выборки и компрессии для достижения лучших результатов производительности при высоких разрешениях экрана
- Архитектурные усовершенствования для увеличения производительности при обработке теней
- Полноскоростной блендинг буфера кадров (против полускоростного у 8800 GTX)
- Вдвое увеличенный буфер команд для повышения производительности вычислений
- Удвоенное количество регистров для более оперативного обсчёта длинных и сложных шейдеров
- Удвоенная точность обсчета данных с плавающей запятой в соответствии со стандартом версии IEEE 754R
- Аппаратная поддержка 10-битного цветового пространства (только с интерфейсом DisplayPort)
Так выглядит список основных характеристик новых чипов:
- Поддержка NVIDIA PhysX
- Поддержка Microsoft DirectX 10, Shader Model 4.0
- Поддержка технологии NVIDIA CUDA
- Поддержка шины PCI Express 2.0
- Поддержка технологии GigaThread
- Движок NVIDIA Lumenex
- 128-битные вычисления с плавающей запятой (HDR)
- Поддержка OpenGL 2.1
- Поддержка Dual Dual-link DVI
- Поддержка технологии NVIDIA PureVideo HD
- Поддержка технологии NVIDIA HybridPower
Отдельно отмечено, что DirectX 10.1 семейством GeForce GTX 200 не поддерживается. Причиной назван тот факт, что при разработке чипов нового семейства, после консультаций с партнёрами, было принято сконцентрировать внимание не на поддержке DirectX 10.1, пока мало востребованного, а на улучшении архитектуры и производительности чипов.
Основанная на пакете физических алгоритмов, реализация технологии NVIDIA PhysX представляет собой мощный физический движок для вычислений в реальном времени. В настоящее время поддержка PhysX реализована в более чем 150 играх. В сочетании с мощным GPU, движок PhysX обеспечивает значительное увеличение физической вычислительной мощи, особенно в таких моментах как создание взрывов с разлётом пыли и осколков, персонажей со сложной мимикой, новых видов оружия с фантастическими эффектами, реалистично надетых или разрываемых тканей, тумана и дыма с динамическим обтеканием объектов.
Ещё одно немаловажное новшество – новые режимы экономии энергии. Благодаря использованию прецизионного 65 нм техпроцесса и новых схемотехнических решений удалось добиться более гибкого и динамичного контроля энергопотребления. Так, потребление семейства графических чипов GeForce GTX 200 в ждущем режиме или в режиме 2D составляет около 25 Вт; при воспроизведении фильма Blu-ray DVD - около 35 Вт; при полной 3D нагрузке TDP не превышает 236 Вт. Графический чип GeForce GTX 200 может вовсе отключаться благодаря поддержке технологии HybridPower с материнскими платами на HybridPower-чипсетах nForce с интегрированной графикой (например, nForce 780a или 790i), при этом поток графики незначительной интенсивности попросту обсчитывается GPU, интегрированным в системную плату. Помимо этого, GPU семейства GeForce GTX 200 также обладают специальными модулями контроля энергопотребления, призванными отключать блоки графического процессора, не задействованные в данный момент.
Пользователь может конфигурировать систему на базе двух или трёх видеокарт семейства GeForce GTX 200 в режиме SLI при использовании материнских плат на базе соответствующих чипсетов nForce. В традиционном режиме Standard SLI (с двумя видеокартами) декларируется примерно 60-90% прирост производительности в играх; в режиме 3-way SLI – максимальное количество кадров в секунду при максимальных разрешениях экрана.
Следующая инновация – поддержка нового интерфейса DisplayPort с разрешениями выше 2560 х 1600, с 10-битным цветовым пространством (предыдущие поколения графики GeForce обладали внутренней поддержкой 10-битной обработки данных, но выводился только 8-битные компонентные цвета RGB).
В рамках анонса новой серии графических процессоров семейства GeForce GTX 200 компания NVIDIA предлагает совершенно по-новому взглянуть на роль центрального и графического процессоров в современной сбалансированной настольной системе. Такой
оптимизированный ПК, базирующийся на концепции
гетерогенных вычислений (то есть, вычислений потока разнородных разнотипных задач), по мнению специалистов NVIDIA, обладает гораздо более сбалансированной архитектурой и значительно большим вычислительным потенциалом. Имеется в виду сочетание центрального процессора со сравнительно умеренной производительностью с наиболее мощной графикой или даже SLI-системой, что позволяет добиться пиковой производительности в наиболее тяжёлых играх, 3D и медиа приложениях.
Иными словами, вкратце концепцию можно сформулировать так: центральный процессор в современной системе берёт на себя служебные функции, в то время как бремя тяжёлых вычислений ложится на графическую систему. Примерно те же выводы (правда, более комплексные и численно обоснованные) наблюдаются в серии наших статей, посвящённых исследованиям зависимости производительности от ключевых элементов системы, см. статьи
Процессорозависимость видеосистемы. Часть I - Анализ;
Процессорозависимость видеосистемы. Часть II – Влияние объема кэш-памяти CPU и скорости оперативной памяти;
Ботозависимость, или зачем 3D-играм мощный CPU;
Процессорозависимость видеосистемы. Переходная область. "Критическая" точка частоты CPU.
Впрочем, интенсивные вычисления с помощью современных графических видеокарт давно не новость, но именно с появлением графических процессоров семейства GeForce GTX 200 компания NVIDIA ожидает значительного повышения интереса к технологии CUDA.
CUDA (Compute Unified Device Architecture) - вычислительная архитектура, нацеленная на решение сложных задач в потребительской, деловой и технической сферах - в любых приложениях, интенсивно оперирующих данными, с помощью графических процессоров NVIDIA. С точки зрения технологии CUDA новый графический чип GeForce GTX 280 это ни что иное как мощный многоядерный (сотни ядер!) процессор для параллельных вычислений.
Как было указано выше, графическое ядро семейства GeForce GTX 200 можно представить как чип, поддерживающий графический и вычислительный режимы. В одном из этих режимов – "вычислительном", тот же GeForce GTX 280 превращается в программируемый мультипроцессор с 240 ядрами и 1 Гб выделенной памяти – этакий выделенный суперкомпьютер с производительностью под терафлоп, что в разы повышает результативность работы с приложениями, хорошо распараллеливающими данные, например, кодирование видео, научные вычисления и пр.
Графические процессоры семейств GeForce 8 и 9 стали первыми на рынке, поддерживающими технологию CUDA, сейчас их продано более 70 млн. штук и интерес к проекту CUDA постоянно растёт. Подробнее узнать о проекте и скачать файлы, необходимые для начала работы можно
здесь. В качестве примера на приведённых ниже скриншотах показаны примеры прироста производительности вычислений, полученные независимыми пользователями технологии CUDA.
Подводя итог нашему краткому исследованию архитектурных и технологических улучшений, реализованных в новом поколении графических процессоров NVIDIA, выделим главные моменты. Второе поколение унифицированной архитектуры визуальных вычислений, реализованное в семействе GeForce GTX 200, является значительным шагом вперёд по сравнению с предшествовавшими поколениями GeForce 8 и 9.
По сравнению с предыдущим лидером GeForce 8800 GTX новый флагманский процессор GeForce GTX 280 обладает в 1,88 раза большим количеством процессорных ядер; способен обрабатывать примерно в 2,5 больше тредов на чип; обладает удвоенным размером файловых регистров и поддержкой вычислений с плавающей запятой с удвоенной точностью; поддерживает 1 Гб памяти с 512-битным интерфейсом; оборудован более эффективным диспетчером команд и улучшенными коммуникационными возможностями между элементами чипа; улучшенным модулем Z-буфера и компрессии, поддержкой 10-битной цветовой палитры и т.д.
Впервые новое поколение чипов GeForce GTX 200 изначально позиционируется не только в качестве мощного 3D графического акселератора, но также в качестве серьёзного компьютерного решения для параллельных вычислений.
Ожидается, что видеокарты GeForce GTX 280 с 1 Гб памяти появятся в рознице по цене порядка $649, новинки на базе GeForce GTX 260 с 896 Мб памяти – по цене около $449 (или даже $399). Проверить, насколько рекомендованные цены совпадают в реальной розницей, можно будет уже совсем скоро, поскольку по всем данным анонс семейства GeForce GTX 200 отнюдь не "бумажный", решения на этих чипах объявили многие партнёры NVIDIA, и в самом ближайшем времени новинки объявятся на прилавках.
Теперь переходим к описанию первой видеокарты GeForce GTX 280, попавшей в нашу лабораторию, и к результатам её тестирования.
Стр.2 - Видеокарта Leadtek 280GTX
Авторы:
Антон Рачко,
Владимир Романченко
Видеокарта Leadtek 280GTX
Видеокарта Leadtek 280GTX досталась нам в OEM исполнении, то есть без коробки. Внешне новинка выглядит как нечто среднее между GeForce 9800GTX и GeForce 9800GX2. Обе стороны платы закрыты черным кожухом, изготовленным из пластмассы и металла.
В комплектацию видеокарты входят:
- переходник питания с двух 6 контактных разъёмов питания видеокарт на один 8 контактный; (подобное решение встречается нам впервые).
- «обычный» переходник питания для видеокарт PCI-express;
- переходник DVI > D-sub;
- переходник S-video > S-video + component out;
- CD с драйверами;
- CD с игрой Neverwinter Nights 2;
- инструкция пользователя;
«Двойной» разъём SLI, позволяющий объединить 3 видеокарты, и разъём для подключения звукового сигнала S/P-DIF закрыты чёрными заглушками. Подобное решение мы уже видели в видеокарте GeForce 9800GX2, тогда подобный подход придал видеокарте внешность автономного устройства, нечто большего, чем просто видеокарта.
Новинка оснащена двумя 8 и 6 контактными разъёмами питания, которые закрывать не стали.
На противоположной стороне расположен разъём 3-Way SLI. Конфигурации из двух видеокарт задействуют только один из его подразъёмов, а для конфигураций из трёх видеокарт требуется специальный
SLI-мостик, который задействует разъём целиком.
Видеокарта Leadtek GTX280 оснащена двумя разъёмами DVI и одним разъёмом S-video. Неподалёку от разъёма S-video расположен индикатор питания видеокарты, который может оказаться весьма полезным в случае проблем с питанием, которые, кстати, не обошли нас стороной. Но об этом чуть позже.
Система охлаждения состоит из двух частей, радиатора с вентилятором и металлической пластиной, отводящей тепло от чипов памяти с обратной стороны платы.
Плата видеокарты Leadtek GTX280 очень похожа на свою предшественницу
GeForce 8800GTX/Ultra. Графический чип GT200, как и G80, оснащён металлической крышкой, служащей для предотвращения механических повреждений кристалла. Место под металлическую рамку вокруг GPU, как у предшественницы,
сохранилось , но самой рамки нет. Количество чипов памяти возросло до 16, которые скомпоновали по 8 штук на обеих сторонах платы. Разрядность шины памяти возросла до 512 бит.
Как и в GeForce 8800GTX/Ultra, в новой видеокарте разработчики из компании NVIDIA применили дискретный чип NVIO, являющийся по сути RAMDAC, который необходимим для поддержки аналоговых дисплеев (D-sub, S-video). В своё время такой подход был обусловлен наводками от шейдерного блока графического процессора, как, видимо, и сейчас. Интересно то, что в чипе G92 удалось избежать подобной проблемы. Почему инженеры из компании NVIDIA не перенесли опыт проектирования чипа G92 на чип GT200, не понятно.
Графический процессор GT200 имеет внушительные размеры, как-никак почти полтора миллиарда транзисторов скрыто под его металлической крышкой. Чип принадлежит к ревизии A2.
Чипы памяти изготовлены компанией Hynix. Номинальное время выборки чипов памяти равно 0,8нс, что соответствует эффективной тактовой частоте 2400 МГц.
Система охлаждения построена на базе пяти тепловых трубок. Три из них распределяют тепло от медного основания по алюминиевым рёбрам, которые продуваются вентилятором справа, четвёртая помогает равномерно распределить тепло, а пятая отводит тепло от подсистемы питания на главный радиатор.
Стр.3 - Тестирование. Выводы
Авторы:
Антон Рачко,
Владимир Романченко
Эффективность системы охлаждения, система энергосбережения
Программа Riva Tuner 2.09 уже поддерживает новый чип GT200.
Поэтому у нас не возникло каких-либо трудностей с измерением температуры видеокарты. Эффективность системы охлаждения мы будем проверять как и раньше при помощи тестовой сцены Firefly Forest из тестового пакета 3DMark 06. Условия тестирования - разрешение 1600x1200, 4-кратное сглаживание и 16-кратная анизотропная фильтрация. После девяти прогонов теста нами были получены следующие результаты:
Графический чип нагрелся до 85 градусов, скорость кулера при этом повысилась с 500 об/мин до 1100 об/мин. Заметим, что, несмотря на значительный рост скорости вентилятора, система охлаждения видеокарты осталась очень тихой.
Видеокарты серии GTX200 могут похвастать эффективной системой энергосбережения, благодаря которой во время простоя, то есть в 2D режиме, видеокарта потребляет не более 70 Вт электроэнергии. Достигнуто это за счёт значительного понижения тактовых частот видеокарты в 2D режиме до 300/100 МГц для графического процессора и 200 «эффективных» МГц для видеопамяти. В 3D режиме частоты видеокарты возрастают до 601/1296 МГц для GPU и 2214 «эффективных» МГц для видеопамяти.
Чуть раньше мы упоминали про возможные проблемы с питанием, которые у нас возникли с данной видеокартой, точнее с блоком питания. При запуске 3D-приложений наша видеокарта выключалась, а её индикатор питания сменял цвет с зеленого на рыжий. Как оказалось, виновником этого стал наш блок питания Hiper 880 Вт. Проблема решилась его заменой на блок питания Thermaltake Toughpower 750 Вт.
Тестирование, выводы
Тестировать видеокарту Leadtek GTX280 мы будем на тестовом стенде следующей конфигурации:
Тестовый стенд |
Процессор |
Intel Core 2 Quad X6850 3,0 ГГц |
Материнская плата |
ASUS P5E3 на базе чипсета Intel X38 |
Оперативная память |
Corsair Dominator DDR3 2 x 2 Гб 1333 МГц 6-6-6-18 1T |
Операционная система |
Windows XP+SP2+DirectX 9.0c / Windows Vista для DX10 тестов |
Блок питания |
Thermaltake Toughpower 750 Вт |
Для видеокарты Leadtek 280GTX мы использовали драйверы 177.34. Ознакомление с результатами мы традиционно начнём с тестов 3DMark.
В тестах 3DMark новинка не проявила в должной мере своего скоростного потенциала, уступив видеокарте GeForce 9800GX2. Впрочем, все точки над «i» расставят игровые тесты, которые мы производили с 4 кратным сглаживанием и 16 кратной анизотропной фильтрацией.
В игре Call of Duty 4 видеокарта Leadtek 280GTX показала немного лучшие результаты, чем GeForce 9800GX2. Результаты других видеокарт оказались еще меньше, но, честно говоря, не так уж и сильно.
Зато в игре Crysis видеокарта Leadtek GTX280 показала «зубы» остальным участницам тестирования. Видеокарта GeForce 8800 Ultra осталась далеко позади, не говоря уж о GeForce 8800 GTS 512. Единственным реальным противником для GeForce 280GTX стала видеокарта GeForce 9800GX2, но не стоит забывать, что последняя представляет собой «склейку» из двух чипов G92, то есть фактически это две видеокарты в одном «флаконе».
Наконец-то мы видим «играбельные» значения при всех трёх разрешениях в игре Crysis под управлением Windows Vista. Видеокарта GeForce 9800GX2 не смогла составить конкуренцию новинке, виной чему стал режим SLI. Увы, но в новой операционной системе этот режим так и не доведён до совершенства.
В игре Need for Speed Pro Street Racing первое место заняла видеокарта GeForce 9800GX2. Вот так вот, иногда «топы» всё же уступают своим предшественникам.
В игре Call of Juarez фортуна вновь отвернулась от новинки, победа осталась за видеокартой GeForce 9800GX2. Впрочем, как мы уже говорили, последняя использует режим SLI, что накладывает на неё некоторые ограничения. И это не только проблемы в плане совместимости с некоторыми играми, что сейчас встречается крайне редко, но и возможность вывода изображения всего на один монитор и не более.
После перехода в Windows Vista расклад сил в игре Call of Juarez практически не изменился, первое место осталось за видеокартой GeForce 9800GX2.
В игре Need for Speed Carbon видеокарта Leadtek 280GTX вернула себе первенство. Видеокарта GeForce 9800GX2 отстала не сильно, но всё же чип GT200 оказался сильнее, нежели два чипа G92 в режиме SLI.
В игре Prey видеокарта Leadtek 280GTX не потеряла первенство, однако мы ожидали от неё несколько лучших результатов. Как-никак эта игра чувствительна к пропускной способности видеопамяти, которая как раз таки должна была возрасти у новинки благодаря расширению шины памяти до 512 бит.
Выводы
Революции не произошло, новый графический процессор GT200 и протестированная сегодня видеокарта GeForce 280GTX являются дальнейшим развитием унифицированной шейдерной архитектуры от компании NVIDIA. Новый графический процессор содержит большее количество функциональных блоков, чем у предшественников, что даёт ему право называться мощнейшим GPU на сегодняшний день. Стоит заметить, что помимо высокой производительности в 3D-приложениях, новый чип претендует на первое место в области распределённых вычислений, на данный момент это проект Folding@Home. Не стоит забывать и про технологию вычислений на графических процессорах NVIDIA Cuda, а также про ускорение «физики» в играх. Последнее будет полностью совместимо с движком AgeiA PhysX, потребуется лишь специальный драйвер, которого, по всей видимости, ждать осталось совсем недолго. Правда насколько будет востребован новый чип GT200 в неграфических вычислениях пока что не совсем понятно, но этот момент мы постараемся разобрать в наших последующих статьях, когда на руках будут все необходимые драйверы и утилиты.