Теги → cuda
Быстрый переход

AMD выпустила двухпроцессорную карту для рынка HPC на базе Fiji

Буквально неделю назад, описывая новую версию профессионального ускорителя NVIDIA Quadro M6000, мы упомянули, что единственным его соперником может являться Radeon Pro Duo, и то с учётом в три раза меньшего объёма локальной памяти (8 Гбайт против 24 Гбайт у NVIDIA). Но вот в том, что Advanced Micro Devices не выпустит других профессиональных ускорителей на базе архитектуры Fiji, мы оказались неправы! Компания представила новинку, предназначенную для рынка супервычислений —  ускоритель FirePro S9300 X2 с пиковой производительностью 13,9 Тфлопс. Так что новинка является самым быстрым вычислительным ускорителем вычислений одинарной точности в мире.

Типичный серверный ускоритель полагается на общую систему охлаждения

Типичный серверный ускоритель полагается на общую систему охлаждения

Это, разумеется, не конкурент Quadro M6000 —  плата не только не имеет разъёмов для подключения каких-либо устройств, она даже в охлаждении полагается на систему сервера, например, такую, как в недавно описанном GIGABYTE G25N-G51, способном вместить до восьми вычислительных ускорителей. Для удержания теплопакета в приемлемых рамках частоты графических ядер S9300 X2 были снижены до 850 МГц. А вот с памятью, по понятным причинам, ничего поделать не удалось и её объём остался прежним —  8 Гбайт в сборках HBM, по четыре сборки ёмкостью 1 Гбайт на чип. Это базовое ограничение конструкции Fiji и преодолеть его нельзя никак, пока не будет развёрнуто производство HBM2. Но эту память унаследует лишь AMD Vega, и сравнительно нескоро. А для организации внешних кешей на базе обычной DRAM у Fiji, похоже, просто нет нужных выводов.

Технические параметры FirePro S9300 X2

Технические параметры FirePro S9300 X2

Новинка AMD явно нацелена на конкуренцию с NVIDIA Tesla M60: последний также является чисто вычислительным ускорителем, также имеет два графических процессора на борту (GM204) и превосходит решение AMD только в объёме локальной памяти: 16 против 8 Гбайт суммарно. M60 создавался с расчётом на использование в игровых системах с удалённым рендерингом, но, похоже, S9300 X2 подойдёт на эту роль гораздо лучше: если у решения NVIDIA пиковая производительность в FP32 составляет 7,4 терафлопса, то у карты AMD этот показатель почти вдвое выше при аналогичном теплопакете — 300 ватт под нагрузкой. FirePro S9300 явный чемпион в категории «производительность на ватт», где может похвастаться 46 гигафлопсами на ватт против 25 у Tesla M60. Иными словами, система на базе S9300 X2 сможет обслуживать больше игровых клиентов при равном уровне энергопотребления.

AMD собирается завоевать рынок супервычислений универсальностью

AMD собирается завоевать рынок супервычислений универсальностью

А вот ускорителям Tesla серии K FirePro S9300 X2 не конкурент — те рассчитаны на высокие показатели в режиме двойной точности (FP64) и предназначены для работы в совсем иных сферах. Так, Tesla K80 может выдавать до 2,91 Тфлопс FP64, в то время как FirePro S9300 X2 сможет выжать в этом режиме лишь жалкие 0,8 терафлопса. В этой категории новинка уступает даже собственному родственнику, ускорителю FirePro S9170, развивающему вполне серьёзные 2,6 терафлопса при двойной точности вычислений. Вот в чём новичку действительно нет равных, так это в пропускной способности памяти: решения NVIDIA пока не располагают даже HBM первого поколения, не говоря уже о более продвинутых типах памяти, а S9300 X2 уже сейчас легко может предложить 512 Гбайт/с, а в некоторых сценариях (CrossFire-подобных) — и 1024 Гбайт/с. Стоимость нового вычислительного ускорителя AMD вполне соответствует нише и составляет $5999, что заметно дороже NVIDIA Quadro M6000. Впрочем, цена впоследствии может быть снижена. Окно доступности новинки — второй квартал.

NVIDIA оснастила Quadro M6000 вдвое большим объёмом памяти

Как известно, архитектура NVIDIA Maxwell не лучший вычислитель, если речь идёт о двойной точности (FP64). Но такая точность, востребованная в научных расчётах, требуется далеко не везде — во многих приложениях, таких как рендеринг 3D-графики или обработка видео, достаточно и одинарной точности (FP32). И вот тут-то ускоритель NVIDIA Quadro M6000 практически вне конкуренции: 7 терафлопс и поддержка 36-битного цвета делают своё дело. А буквально вчера компания решила немного обновить свой флагманский ускоритель на базе Maxwell.

Позвольте представиться: царь!

Позвольте представиться: царь!

Новая версия Quadro M6000 сохранила прежние технические характеристики: её сердцем по-прежнему является чип GM200-400-A1 с активными 24 модулями SMM, что даёт в распоряжение системы 3072 активных ядра CUDA. Такая конфигурация присуща только M6000 и TITAN X. Текстурных блоков и блоков растровых операций, разумеется, по-прежнему 192 и 96, объём кеша графического процессора составляет 3 Мбайт, а с памятью чип общается посредством шести 64-битных контроллеров, что в сумме даёт 384-битную шину с приличной потенциальной пропускной способностью.

Quadro M6000: король рендеринга

NVIDIA Quadro M6000 в цифрах

Хотя частоту ядра компания оставила неизменной, сохранив значение 988 МГц в обычном режиме, объём локальной видеопамяти был увеличен с 12 до 24 Гбайт ввиду того, что современные задачи обработки видео и 3D с учётом роста популярности разрешения 4K требуют всё больше и больше ресурсов и до памяти весьма охочи. Частота памяти, впрочем, не изменилась. Она по-прежнему составляет 6,6 ГГц, что обеспечивает пропускную способность 317,4 Гбайт/с. Не так много в сравнении с AMD Fiji, но для большинства задач достаточно. В задачах, где востребован M6000, объём оказался куда важнее скорости.

Создатели фильмов действительно нуждаются в больших объёмах видеопамяти

Создатели фильмов действительно нуждаются в больших объёмах видеопамяти

Конфигурация интерфейсов немного изменилась —  место одного из четырёх разъёмов DisplayPort 1.2 занял разъём HDMI. Порт DVI-I остался на своём месте. Несмотря на всю свою мощь, Quadro M6000 имеет весьма умеренный теплопакет, составляющий всего 225 ватт. Ускоритель требует подключения только одного восьмиконтактного разъёма питания, что разительно отличает его от игровых карт, на которых таких разъёмов может быть целых три. Система охлаждения используется та же, что и в TITAN X, а значит, учитывая сравнительно умеренный характер Quadro M6000 по части энергопотребления и тепловыделения, проблем с отводом тепла быть не должно.

Ускорители NVIDIA Quadro: такие разные и все вместе

Ускорители NVIDIA Quadro: такие разные и все вместе

По-прежнему поддерживается интерфейс SLI, позволяющий объединять до четырёх карт M6000 в единую графическую или вычислительную систему. Что самое приятное для заказчиков —  NVIDIA решила оставить цену на обновлённый вариант Quadro M6000 прежней — $5000. Соперников у данного решения практически нет. AMD FirePro S9170 несёт на борту 32 Гбайт памяти, но это чистый вычислительный ускоритель, лишённый каких-либо мониторных разъёмов, а FirePro W9100 имеет лишь 16 Гбайт GDDR5 и развивает всего 5,24 терафлопса в режиме одинарной точности.

Radeon Pro Duo: единственная угроза королю?

Radeon Pro Duo: единственная угроза королю?

Единственным настоящим врагом Quadro M6000 является недавно анонсированный двухпроцессорный ускоритель AMD Radeon Pro Duo с максимальной теоретической производительностью 16 терафлопс, причём стоящий всего $1500, зато располагающий лишь 8 Гбайт видеопамяти. Другие решения на базе AMD Fiji предназначены в основном для игр и не снабжаются нужной программной поддержкой и сертификацией. Поскольку AMD вовсю готовится к запуску архитектуры Polaris, появление карт серии FirePro на базе ядра Fiji маловероятно. Следующий раунд состязания между профессиональными ускорителями AMD и NVIDIA будет между Polaris и Pascal.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

NVIDIA и Нью-Йоркский университет создадут алгоритмы искусственного интеллекта для GPU

Постоянно растущая вычислительная мощность графических процессоров зачастую находит свое применение далеко за пределами индустрии развлечений, свидетельством чему — множество проектов, реализующих их потенциал в приложениях общего назначения. Компания NVIDIA, как разработчик, не остаётся в стороне от этого процесса, с завидной регулярностью представляя публике всё новые и новые инициативы.

На сей раз пристального внимания удостоились исследования Нью-Йоркского университета в области искусственного интеллекта, которому NVIDIA намерена помогать в оптимизации алгоритмов глубинного обучения. Организации объявили о сотрудничестве, целью которого станет совместная разработка приложений, способных эффективно исполняться крупномасштабными системами на основе GPU.

Возможная сфера применения таких решений необычайно широка и простирается от облачных хранилищ изображений до бытовой техники и автомобилей. В своем блоге специалисты компании подчёркивают, что механизмы глубинного обучения постоянно совершенствуются, ставя своей целью вознести искусственный интеллект на один уровень с человеческими возможностями, либо превзойти их.

Особенности архитектуры графических процессоров позволяют исследователям сократить время симуляции работы нейронных сетей на дни и порою месяцы, однако до сего времени возможности моделирования были ограничены отсутствием распределения вычислений на несколько GPU. Понимая это, ученые разработали новую масштабируемую систему глубинного обучения ScaLeNet и установили её на состоящий из восьми узлов кластер, собранный на основе двухпроцессорных графических ускорителей NVIDIA Tesla K80.

Новая система позволит исследователям заняться симулированием человеческой модели поведения при решении различного рода задач, что в конечном итоге должно привести к прогрессу в таких областях, как машинный перевод речи в режиме реального времени, автономное транспортное движение, анализ медицинских снимков и многое другое. Ну а разработанные специально для этих целей специализированные библиотеки CUDA Deep Neural Network (cuDNN) призваны обеспечить максимальную эффективность исследований.

Видеокарты NVIDIA помогли сделать открытие в области диетологии

NVIDIA объявила о новом открытии в области физиологии и диетологии, которое стало возможно в результате анализа огромных массивов данных с помощью графических процессоров NVIDIA.

Группа учёных из британского института сделала открытие, которое заключается в том, что разные типы жиров накапливаются в организме человека в разных местах. Так, например, животные жиры предпочитают откладываться на ягодицах, а молочные — в области груди. Зная о местах аккумулирования тех или иных видов жира, можно с лёгкостью корректировать свою диету, наращивая или уменьшая проблемные места своего тела.

Британские учёные сообщают, что продолжают работать над классификацией жиров, чтобы любой желающий исключительно за счёт коррекции питания мог, например, нарастить губы и одновременно сделать тоньше шею. Учёные уже проверяют свои открытия на животных.

Возможные характеристики Quadro M6000 на базе GM200: 3072 ядер CUDA, 12 Гбайт VRAM

NVIDIA может так и не впустить потоковые ускорители Tesla на базе GM200 или любого другого чипа Maxwell (переход будет совершён сразу на архитектуру Pascal). Но, похоже, обновлённая линейка Quadro вскоре будет представлена. По крайней мере, появилась информация о характеристиках видеокарты Quadro M6000, которая заменит Quadro K6000 и будет основана на чипе NVIDIA Maxwell GM200.

Стоит отметить, что архитектура Maxwell уже давно проложила путь в линейку Quadro, но речь шла о простых ускорителях на базе GM107 (первое поколение Maxwell). Грядущие же карты будут использовать высокопроизводительные чипы GM200 и GM204. Сведения о характеристиках флагманского ускорителя Quadro стали известны благодаря отчётам утилиты GPU-Z.

Карта, о которой идёт речь, проходит под идентификатором 10DE – 17F0. Учитывая, что текущие ускорители Maxwell тоже имеют в идентификаторе 17F0, речь может действительно идти о флагманском чипе GM200. Итак, характеристики ускорителя Quadro M6000 включают 3072 потоковых процессоров против 2048 в современном чипе GM204. Учитывая тот факт, что один вычислительный блок SMM в архитектуре Maxwell включает 128 потоковых процессоров, речь идёт о 24 блоках SMM. Кроме того, ускоритель включает 96 блоков растровых операций и 192/256 текстурных блоков.

Пиксельная скорость заполнения достигает 94,8 гигапикселей/с, а текстурная — 252,9 гигатекстелей/с. Рабочая частота GPU составляет 988 МГц (Boost-частота не сообщается). Ускоритель вряд ли получит менее 12 Гбайт видеопамяти GDDR5, ведь он приходит на смену K6000, который оснащается таким объёмом буфера. Интерфейс памяти останется 384-битным, а частота будет повышена до 6,6 ГГц (это даёт до 317,4 Гбайт/с).

Характеристики выглядят весьма впечатляюще, однако сложно сказать, идёт ли речь о полноценном чипе GM200 или же о его урезанном в целях экономии варианте. Учитывая тот факт, что Quadro K6000 основана на полноценном чипе GK110, есть основания ожидать того же и от Quadro M6000. Версия ускорителя GeForce на базе GM200 наверняка получит меньше памяти, более высокую частоту и оптимизации для игр.

NVIDIA представила «двуглавого монстра» Tesla K80

Компания NVIDIA официально представила свой ускоритель Tesla K80, который она гордо называет «самым высокопроизводительным в мире». Новинка с двумя мощными видеочипами GK210 нацелена на использование в самых разнообразных приложениях, включая машинное обучение, анализ данных, научные исследования и расчеты, HPC-приложения.

NVIDIA

NVIDIA

Новый ускоритель является флагманом линейки Tesla Accelerated Computing. Как и другие представители данной платформы, устройство поддерживает технологию CUDA. По сравнению с предшественницей, моделью Tesla K40, новинка отличается примерно в 1,75 раза более высокой производительностью и почти удвоенной пропускной способностью памяти. При этом по скорости вычислений K80 в десять раз превосходит самый быстрый современный CPU, утверждает NVIDIA.

NVIDIA

NVIDIA

Среди технических особенностей «двуглавого монстра» можно выделить 24 Гбайт GDDR5-памяти (по 12 Гбайт на один GPU), пропускную способность памяти 480 Гбайт/с, 4992 CUDA-ядер, поддержку NVIDIA GPU Boost.

Новинка уже отгружается заказчикам, среди которых присутствуют ASUS, Cray, Dell, GIGABYTE, HP, Supermicro, Tyan и многие другие.

NVIDIA добавляет в платформу CUDA модель унифицированной памяти

Компания NVIDIA объявила об улучшении предоставляемых ей программных инструментов, облегчающих разработку программ, загружающих вычислениями как CPU, так и GPU. Анонс касается CUDA 6 – новой версии платформы программирования параллельных вычислений, упрощающей решение таких задач на суперкомпьютерах, рабочих станциях и традиционных ПК. Основной целью CUDA является предоставление разработчикам базовых средств, упрощающих перенос нагрузки с CPU на GPU при создании научных, инженерных, корпоративных и других приложений.

Главным достоинством CUDA 6 следует считать внедрение модели унифицированной памяти, что делает доступ к данным, хранящимся в памяти видеоускорителя, столь же простым, как и к данным, размещённым в обычной оперативной памяти. Ранее перемещение данных из основной памяти в видеопамять для обработки силами GPU и их обратное возвращение приводило к необходимости программирования дублирования информации и лишним трудозатратам. Теперь же, с моделью унифицированной памяти, разработчикам не придётся специально заботиться о перемещении данных, прежде чем начать их обработку на вычислительных мощностях графического ускорителя. Весь необходимый менеджмент памяти берёт на себя новая платформа параллельных вычислений.

Следует отметить, что модель унифицированной памяти, введённая NVIDIA, идеологически близка к технологии Heterogenous Unified Memory Access (hUMA), реализующей разделение памяти между процессорами разных типов. Спецификация hUMA позволяет программировать гетерогенные вычисления, не задумываясь  местоположении данных, так как она предполагает создание единого адресного пространства. Однако NVIDIA не входит в разрабатывающий эту спецификацию фонд HSA, членами которого являются компании AMD, ARM, Qualcomm и другие.

Внедрение в CUDA 6 модели унифицированной памяти попадает в общую струю разработок NVIDIA, которая давно обозначила своей целью сделать память общим ресурсом для CPU и GPU на аппаратном уровне. Новая версия этой платформы предлагает временное программное решение этой задачи, но впоследствии можно ожидать более глубокого развития идеи унифицированной памяти. В частности, воплощение модели общей памяти для CPU и GPU можно ожидать от NVIDIA в перспективном мобильном чипе Tegra 6 (Parker) и графических ускорителях поколения Maxwell.

Использование графических карт для ускорения вычислений общего назначение – достаточно популярная тенденция, которая находит всё более широкое применение в суперкомпьютерах и рабочих станциях. Поэтому развитие платформы CUDA можно только приветствовать. В прошлой версии CUDA 5.5 компания NVIDIA добавила совместимость с процессорами c ARM-архитектурой. Теперь же, помимо модели унифицированной памяти, в CUDA 6 появились автоматическая интеграция и масштабирование. Увеличения производительности за счёт переноса параллельных вычислений на GPU теперь можно добиться простой заменой программных библиотек, которые получили поддержку до восьми графических процессоров.

Российская «Фаствидео» создала сверхбыстрый кодек JPEG, использующий NVIDIA CUDA

Хотя формат JPEG уже достаточно стар, он до сих пор является самым используемым для кодирования и декодирования изображений в мире. В настоящее время большинство электронных устройств легко справляются с обработкой JPEG, однако есть немало областей, где быстрое кодирование и декодирование изображений в этом формате имеет первостепенное значение. Например, в различных веб-приложениях, при работе с профессиональным оборудованием, способном создавать огромные потоки изображений, в системах видеосъёмки с высокой частотой кадров и высоким разрешением, в задачах визуализации, включая работу с изображениями 4K и 8K в режиме реального времени.

Поэтому новая разработка российской «Фаствидео» весьма интересна — основанная в 2009 году компания создала сверхбыстрый кодек JPEG, использующий аппаратные ресурсы видеокарт NVIDIA через технологию CUDA для ускорения компрессии и декомпрессии изображений с помощью параллельных вычислений. Разработчики утверждают, что ими была реализована и оптимизирована схема, в которой распараллелены абсолютно все стадии алгоритма JPEG, включая энтропийное кодирование и декодирование. Это позволило добиться очень высокой производительности кодека и оставить позади конкурентные продукты.

Использование для расчётов GPU также позволяет высвободить ресурсы CPU для других задач и оптимизировать энергопотребление системы. Кодек JPEG от «Фаствидео» способен сжать в 10 раз цветное изображение с разрешением 3840 x 2160 всего за 6 миллисекунд. На графическом процессоре NVIDIA GeForce GTX Titan производительность JPEG может достигать 6 Гбайт в секунду.

Пока комплект разработчика JPEG SDK для кодирования и декодирования изображений в формате JPEG предлагается для ОС Windows 7/8 и видеокарт NVIDIA серий 400, 500, 600 и 700. Демонстрационную версию кодека JPEG для видеокарт NVIDIA можно получить на сайте «Фаствидео». В скором времени обещан выход кодека JPEG и для Linux.

Использование CUDA для художественных инсталляций

В галерее Boston Cyberarts с 14 июня по 28 июля проходит мультимедийная художественная выставка Collision19:COmpress/DECompress, экспонаты которой выполнены с помощью научных расчетов и высокопроизводительных вычислений на GPU.

Например, композиция «Всё сделано из Атомов» (Everything is Made of Atoms), созданная Джеймсом Сузинно (James Susinno) и Марком Стоком (Mark Stock), интерпретирует изображение зрителя в интерактивную сцену, состоящую из тысяч частиц, постоянно отрывающихся от тела и инерционно реагирующих на движения зрителя.

С помощью компьютера на базе графического процессора GeForce GTX 660Ti датчик глубины анализирует разнообразные данные изображения зрителя, глубину, силуэт и скелет, которые затем с помощью приложения на C++/OpenGL/CUDA складываются в определенную геометрическую картинку на экране.

Прямой метод решения задачи N-тел при вихревом моделировании, написанный на CUDA, управляет жидкостным моделированием в реальном времени и рассчитывает расположение и ориентацию колеблющихся частиц. Графический процессор выполняет моделирование динамики вихря, отрисовывает десятки тысяч частиц и грунтовую текстуру 8000 х 8000 на мониторе ультравысокого разрешения с частотой 30 кадр./с.

Вторая инсталляция «Dial-A-Style» на базе CUDA в галерее Boston Cyberarts создана Робертом Гонзалвесом (Robert Gonsalves). Эта интерактивная композиция позволяет посетителям создавать цифровые автопортреты в различных творческих стилях.

Посетитель крутит специальное колесо, которое может остановиться на одном из четырех стилях — импрессионизм в стиле Винсента Ван Гога, кубизм, пуантилизм и аниме — или на границе между стилями, рождая гибридный портрет. Затем делается снимок посетителя, на основе которой создаётся стилизованная картина.

Программа в основе колеса написана на C++ и использует ядра CUDA для решения квадратных уравнений в рамках анализа собственных значений для определения ориентации градиента с помощью структурных тензоров. Этот метод применяется в сочетании с алгоритмами обработки изображений XDoG для достижения конечного результата. Вся система работает на базе видеокарты GeForce 9600 GT.

Материалы по теме:

Источник:

Демонстрация лицевой анимации от NVIDIA доступна для скачивания

В марте на конференции NVIDIA GPU Technology исполнительный директор компании Дженсен Хуанг (Jen-Hsun Huang) представил демонстрацию Digital Ira, которая показывала анимационную технологию FaceWorks. Это был очень впечатляющий показ, и хотя анимацию в реальном времени по-прежнему нельзя назвать живой, Digital Ira знаменует существенный шаг вперёд в проработке лиц игровых персонажей.

Файл объёмом 309 Мбайт может быть загружен напрямую с сайта NVIDIA. Для работы потребуется видеокарта GeForce с поддержкой CUDA и DirectX 11. Разумеется, не каждая такая видеокарта сможет исполнять демонстрацию с достаточно высокой частотой прорисовки и без каких-либо особенных проблем — для этого потребуются достаточно мощные ускорители.

Согласно описанию, Digital Ira может предложить три различных окружения и позволяет изменять параметры кожи, чтобы наблюдать эффект прохождения света через неё. Что же касается FaceWorks, то технология была разработана при сотрудничестве с калифорнийским Институтом творческих технологий. Она основана на данных захвата движений с применением особой технологии анализа светотеней вместо используемых традиционно маркеров и ключевых точек.

Другие выпущенные ранее демонстрации можно скачать на особой странице NVIDIA.

Материалы по теме:

Источник:

Откровения NVIDIA на GPU Technology Conference 2013

Вчера генеральный директор компании NVIDIA Джен-Сан Хуанг (Jen-Hsun Huang) выступил с докладом в рамках ежегодной конференции GPU Technology Conference. Более трёх тысяч слушателей собрались в большом павильоне в Сан-Хосе, чтобы узнать о грядущих планах калифорнийского гиганта. К этому мероприятию наблюдается большой интерес прессы, который растёт с каждым годом. В текущем году было замечено более 180 репортеров и аналитиков, а количество фото- и видеокамер впечатлило очевидцев.

Вступительный видеоролик показывает, насколько важные и серьёзные задачи решают на сегодняшний день графические ускорители. GPU используют в системах наведения ракет, при подводном поиске мин, спутниковых системах, для решения разнообразных исследовательских и научных задач, и многих других приложениях. Господин Хуанг появляется, гордо держа в руках флагманский ускоритель GeForce Titan. Сразу же глава NVIDIA отметил ключевые пункты выступления, среди которых и самое интересное для нас — анонсы новых продуктов.

Первым делом были показаны возможности ускорителя Titan. В демонстрационном приложении было проведено моделирование океанских волн в режиме реального времени. Сложная задача учитывает множество факторов, включая силу и направление ветра, а также физические параметры корабля и его передвижение.

Далее был продемонстрирован рендеринг человеческого лица. В этой задаче, включающей проработку теней и прорисовку мелких деталей, использовалась мощность в 2 терафлопса. В анимации, которая разрабатывалась при сотрудничестве с Университетом Южной Калифорнии, решение NVIDIA отвечало за синтез 3D-изображения и моделирование его перемещения в пространстве и изменения мимики.

 

Пару слов было сказано о развитии GPU-вычислений. В 2008 году было загружено 150 тысяч экземпляров программного комплекта CUDA, 60 университетов занимались исследованием этой технологии, при этом было опубликовано около четырёх тысяч научных статей. В текущем году количество загрузок увеличилось до 1,6 млн. Всего отгружено 500 млн CUDA-процессоров, 640 университетов взяли на вооружение данную технологию. Кроме того, опубликовано 37 тысяч научных статей по этому направлению. Активно GPU используются и в суперкомпьютерах. Господин Хуанг отметил, что пик эры GPU-вычислений ещё не наступил, но мы находимся на стадии активного развития этих технологий.

Также представитель NVIDIA отметил важную роль GPU при решении таких задач, как поиск изображений или распознавание песен (Shazam). В частности, GPU позволяет в пять раз ускорить инвертирование цветов, в шесть раз ускорить распознавание лиц.

Далее Хуанг перешел к анонсам новых решений. В 2008 году был представлен первый ускоритель с поддержкой CUDA — NVIDIA Tesla. Два года спустя появился Fermi. 2012 год ознаменовался выходом архитектуры Kepler. Следующим шагом в этом направлении станет выпуск решения Maxwell с унифицированной виртуальной памятью (GPU и CPU в рамках одного чипа смогут обращаться к памяти друг друга). После этого планируется выпуск решения с кодовым именем Volta, о котором известно пока лишь, что оно будет отличаться более высокой энергоэффективностью и поддержкой новой технологии «Stacked DRAM».

Что касается мобильных решений, то господин Хуанг приподнял завесу тайны над мобильным процессором следующего поколения. Его кодовое имя — Logan. Этот чип станет первым мобильным процессором с поддержкой CUDA. Logan будет включать GPU Kepler, поддержку CUDA 5 и OpenGL 4.3. Производство новинки стартует в следующем году.

Более того, вслед за Logan на рынок выйдет решение с именем Parker (не ранее 2015 года). Этот процессор станет первой реализацией проекта Denver, первым 64-разрядным ARM-чипом, работающим в паре с GPU Maxwell, а также первым GPU с использованием транзисторов FinFET. Всего за 5 лет производительность Tegra вырастет в 100 раз, отметил представитель NVIDIA. Что ж, нам остаётся наблюдать, как компания реализует свои амбициозные планы.

Материалы по теме:

Источник:

NVIDIA представила CUDA 5

NVIDIA осуществила запуск CUDA 5, новой версии своей известной платформы для параллельных вычислений и программной модели для создания ускоренных приложений, использующих мощности GPU в самых различных областях. Пакет может быть загружен заинтересованными разработчиками с официального сайта NVIDIA Developer Zone в версиях для разных операционных систем.

Компания отмечает, что пакет разработки CUDA был загружен уже свыше 1,5 миллионов раз, программная модель поддерживается в более чем в 180 инженерных, научных и коммерческих приложениях — всё это, по словам NVIDIA, делает CUDA наиболее популярным среди разработчиков средством использования преимуществ ускоренных с помощью GPU вычислений.

CUDA 5 обещает существенный рост эффективности вычислений и улучшенную программируемость. NVIDIA утверждает, что новые функции платформы позволяют сделать разработку ускоренных с помощью GPU приложений быстрее и проще. Доступна поддержка технологии динамического параллелизма, когда GPU-потоки могут создавать новые потоки, приспосабливаясь к данным без лишней синхронизации с CPU. Появилась поддержка библиотек, вызываемых напрямую из кода на GPU, что обеспечивает развитие сторонней экосистемы. Также стоит упомянуть GPUDirect для RDMA (прямая связь GPU с другими устройствами на шине PCI-E, что уменьшает влияние узких мест системной памяти на производительность) и встроенную среду разработки NVIDIA Nsight Eclipse Edition.

Материалы по теме:

Источник:

NVIDIA представила обновленную версию платформы CUDA

Компания NVIDIA анонсировала выпуск новой версии платформы CUDA. Теперь специалисты смогут значительно быстрее разрабатывать модели и проводить вычислительные операции с помощью GPU. По словам разработчиков платформы параллельных вычислений, новая версия значительно ускорит процесс расчета, а также имеет несколько ключевых усовершенствований, которые делают работу графического процессора более легкой, быстрой и доступной.

К нововведениям относится новый инструментарий Visual Profiler с автоматизированным анализом производительности, который имеет в себе пошаговое руководство по улучшению работы приложений. Кроме того, компания внедрила новый компилятор на основе LLVM с открытым исходным кодом, обеспечивающий до 10% улучшения производительности во время работы с приложениями.  Модульный дизайн LLVM дает разработчикам возможность создавать собственные решения для архитектур.

Разработчики сообщили о добавлении сотни новых изображений и функций в библиотеку NPP (NVIDIA Performance Primitives), которая используется для  обработки различных сигналов и изображений, начиная от стандартной фильтрации и заканчивая передовыми технологическими процессами.

Загрузить бесплатную версию платформы CUDA можно с официального сайта компании.

Материалы по теме:

Источник:

Особенности архитектуры 10-нм суперкомпьютерного чипа NVIDIA Echelon

В распоряжение энтузиастов с китайского форума PCINLIFE попали свежие слайды об особенностях устройства и архитектуры перспективного  суперкомпьютерного чипа NVIDIA Echelon, первая информация о котором была озвучена в ноябре 2010 года главным технологом компании Биллом Делли (Bill Dally) в рамках мероприятия Supercomputing 2010.

Опубликованные слайды подтверждают ранее озвученную информацию о характеристиках будущего изделия, дополняя ее некоторыми деталями. Так, отныне известно, что микропроцессор будет создаваться на основе требований 10-нм технологического процесса. На кристалле площадью 290 мм2 будет размещено 64 потоковых мультипроцессорных модуля (SM), которые получили наименование NoC (Network on Chip). В состав каждого мультипроцессорного модуля войдет 4 SM-узла, каждый из которых, в свою очередь, будет состоять из 8 SM-линий. Таким образом, чип Echelon будет состоять не из 1024, а из 2048 вычислительных ядер. Обмен данными между узлами будет осуществляться при помощи внутренней кеш-памяти L2. На кристалле также будет размещено 8 узлов LOC (Latency Processor).

 

В планах разработчика, среди прочих основных параметров эффективности, значится достижение энергоэффективности в 20 пикоджоулей на одну операцию с плавающей запятой, включая обращения к памяти. Начало массового производства чипов Echelon для суперкомпьютерных и высокопараллельных вычислений намечено на 2017 год. Расчетная пиковая производительность чипа в операциях с двойной точностью, согласно имеющимся данным, будет лежать в пределах 16 терафлопс при пропускной способности памяти 1,6 Тбайт/с и энергопотреблении менее 150 Вт.

 

Материалы по теме:

Источник:

window-new
Soft
Hard
Тренды 🔥