Теги → cuda
Быстрый переход

Почти 8000 ядер CUDA: обнаружен ещё один графический процессор NVIDIA нового поколения

Количество слухов и утечек о будущих графических процессорах NVIDIA нового поколения заметно увеличилось. Буквально на днях мы писали о том, что в базе данных теста производительности Geekbench обнаружились упоминания двух ускорителей на новых GPU, как там же был обнаружен и третий ускоритель на ещё более мощном чипе.

В прежней утечке фигурировали ускорители на неких графических процессорах со 108 и 118 мультипроцессорами, тогда как теперь «засветился» чип, обладающий 124 мультипроцессорами. Вероятнее всего, это также несколько «урезанная» версия некоего флагманского графического процессора NVIDIA — скорее всего, полноценная версия чипа должна обладать 128 мультипроцессорами.

Тактовая частота протестированного графического процессора составила 1,11 ГГц. Можно предположить, что такая невысокая частота указывает на принадлежность ускорителя к профессиональным решениям. Также на это указывает использованная здесь память: её объём составляет 32 Гбайт, что очень много для потребительского сегмента, а судя по частоте в 1,2 ГГц, это память HBM2e. С большой долей вероятности, мы смотрим на преемников ускорителей вычислений Tesla V100.

На данный момент неизвестно, являются ли обнаруженные чипы носителями архитектуры Ampere или какой-либо другой. Также сложно сказать, сколько именно ядер CUDA приходится на каждый мультипроцессор. Если их, как и в случае с Volta и Pascal, будет по 64 на мультипроцессор, то полная версия чипа будет обладать 8192 ядрами CUDA, а обнаруженный сейчас образец со 124 мультипроцессорами — 7936 ядер CUDA.

И ещё остаётся вопрос, выполнены ли все эти «засветившиеся» графические процессоры в форме одного большого кристалла или же состоят из нескольких. Даже с учётом перехода на 7-нм техпроцесс, монолитный кристалл со столь большим количеством ядер получится очень большим, что сделает его очень дорогим. С другой стороны, в сфере больших вычислений и цены совершенно другие. Будем надеяться, что на предстоящей GTC компания NVIDIA прольёт свет на эти утечки и в целом на свои будущие графические процессоры.

Искусственный интеллект: NVIDIA не сомневается в сохранении лидирующих позиций

Долгие годы NVIDIA формировала фундамент в сегменте ускорения вычислений силами графических процессоров за счёт своей экосистемы CUDA. В последнее время появляется много желающих предложить специализированные ускорители для систем искусственного интеллекта, но представители NVIDIA убеждены, что позициям компании на этом рынке мало что угрожает в ближайшие годы.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

По итогам третьего квартала выручка NVIDIA от реализации графических процессоров всех типов достигла $2,57 млрд. В игровом сегменте она выручила $1,66 млрд. Если учесть, что часть игровой выручки была сформирована компонентами для консолей Nintendo Switch, которые не относятся к категории графических процессоров, то более миллиарда долларов США компания должна была получить от реализации графических процессоров за пределами игрового сегмента. Действительно, самая крупная после игрового сегмента статья доходов NVIDIA — это центры обработки данных, выручка на этом направлении в третьем квартале достигла $726 млн. Ещё $324 млн выручки пришлись на сегмент профессиональных графических адаптеров.

По словам аналитиков Jefferies, которые накануне встретились с вице-президентом NVIDIA по связям с инвесторами Симоной Янковски (Simona Jankowski), руководство компании убеждено в сохранении за ней лидирующих позиций в серверном и игровом сегментах рынка. Графические процессоры марки всё более активно используются в системах искусственного интеллекта, а количество игр с поддержкой трассировки лучей растёт уверенными темпами. Свои позиции в сегменте систем искусственного интеллекта NVIDIA достаточно хорошо защитила популярностью среди разработчиков собственных графических процессоров и связанной с ними программной экосистемы. По мнению авторов аналитической записки, в ближайшее время NVIDIA будет развивать свой бизнес на этом направлении с большим отрывом от конкурентов.

Первый 7-нм продукт NVIDIA выйдет не ранее следующего полугодия

Недавнее знакомство с актуальными слухами о возможных характеристиках 7-нм графических процессоров NVIDIA поколения Ampere носило весьма общий характер, а сроки их дебюта были привязаны к неопределённому периоду 2020 года. Между тем давно известно, что NVIDIA старается самые дорогие и передовые технологические решения отрабатывать в сегменте ускорителей вычислений, поскольку они там окупаются лучше, а фактическое доминирование компании в данном сегменте рынка позволяет ей смелее экспериментировать.

Источник изображения: Twitter, NVIDIA

Источник изображения: Twitter, NVIDIA

Аналитики Raymond James убеждены, что в этом году NVIDIA не выпустит свой первый 7-нм графический процессор, хотя ранее такая вероятность допускалась. Теперь дебют ускорителя вычислений, который будет основан на 7-нм графическом процессоре, намечен на первую половину 2020 года. По большому счёту, формальный анонс может состояться и в первом квартале, поскольку начать год с соответствующего заявления для NVIDIA было бы выгодно.

Если обратиться к истории официальных упоминаний о планах NVIDIA по выпуску преемника Volta, то особых сигналов, говорящих о близости анонса Ampere, представители компании до сих пор не давали. Южнокорейское представительство NVIDIA сообщило местным СМИ, что в следующем году компания будет сотрудничать с Samsung в рамках выпуска 7-нм продукции. Основатель NVIDIA Дженсен Хуанг (Jen-Hsun Huang) позднее заявил на квартальном мероприятии, что архитектура Volta будет весьма востребована в серверном сегменте вплоть до конца следующего года, и причин срочно выпускать преемника он не видит. Даже недавние признания руководства Intel в готовности выпустить серверный 7-нм графический процессор в конце 2021 года вряд ли могут мотивировать NVIDIA соответствующим образом — время в запасе ещё есть.

Специалисты Raymond James поясняют, что по состоянию на конец прошлого квартала партнёры NVIDIA не демонстрировали никакой активности, типичной для периода подготовки к анонсу важного продукта нового поколения. Это и позволяет экспертам сделать вывод, что дебют 7-нм изделий данной марки намечен на первый или даже второй квартал следующего года. На квартальной отчётности ближайших периодов такой график скажется отрицательно, но в долгосрочной перспективе потенциал NVIDIA в серверном сегменте он не ослабит, как считают авторы аналитической записки.

NVIDIA пока не видит необходимости выпускать преемников Volta и Turing

Основателя и бессменного руководителя корпорации NVIDIA достаточно сложно вывести на откровенный разговор о будущих продуктах марки, поскольку все провокационные вопросы на отраслевых мероприятиях он не оставляет без ответа, но сообщает ровно ту информацию, которой хотел бы поделиться без ущерба для соблюдения коммерческой тайны. На минувшей квартальной конференции Дженсена Хуанга (Jen-Hsun Huang) спросили о готовности компании предложить преемника для архитектуры Volta в сегменте ускорителей вычислений, а также перевести соответствующие продукты на 7-нм технологию изготовления.

Стоит напомнить, что о намерениях NVIDIA начать поставки 7-нм продуктов не ранее следующего года мы знаем из публикаций южнокорейских СМИ, которые ссылались на откровения местного представительства компании по поводу перспектив сотрудничества с Samsung. До сих пор Дженсен Хуанг либо уходил в сторону от обсуждения планов по миграции на 7-нм технологию, либо подвергал критике саму идею «гонки за нанометрами», попутно прославляя инженеров компании за способность создавать крупные монолитные кристаллы. На этой неделе он вообще сделал вид, что в вопросе не упоминался новый техпроцесс, и сосредоточился на обсуждении жизненного цикла архитектуры Volta, которая компанией применяется в сегменте профессиональных решений.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Дженсен Хуанг заявил, что на формирование аппаратной базы в серверном сегменте уходят годы, и этот процесс подразумевает заблаговременное планирование. Volta в этом смысле, как убеждён руководитель компании, будет весьма успешна до конца следующего года, как минимум. Важную роль в развитии экосистемы играет программная оптимизация. Например, в сегменте систем искусственного интеллекта программистам удалось за один год с момента анонса Volta поднять быстродействие на 80 % без каких-либо аппаратных изменений. Программная среда CUDA эволюционирует на протяжении пятнадцати лет, и это очень тяжёлый труд. Что касается архитектуры Volta, то она сейчас переживает свои лучшие времена, по мнению генерального директора NVIDIA, и в следующем году предпосылок для изменения ситуации не предвидится.

Попутно глава компании отметил, что выгодному позиционированию графических решений Turing до конца следующего года тоже ничего угрожать не будет. Старт продаж видеокарт серии SUPER был очень успешным, и даже все предпринимаемые NVIDIA усилия по обеспечению поставок в необходимых количествах не исключают проявлений дефицита во многих торговых сетях. Там, где новые видеокарты есть в наличии, их стоимость обычно выше рекомендованной NVIDIA, и сам глава компании считает, что это явный признак успеха. Он также утверждает, что покупать сейчас видеокарту без поддержки RTX с перспективой эксплуатации от двух до четырёх лет совершенно неразумно. Будущее игровой индустрии глава NVIDIA неразрывно связывает с трассировкой лучей.

NVIDIA добавит поддержку ARM в экосистему CUDA

На конференции International Supercomputing Conference в Германии NVIDIA сделала важное заявление: она вскоре обеспечит поддержку ЦП с архитектурой ARM в своей программной экосистеме. Это позволит производителям создавать более экономичные суперкомпьютеры для экзафлопсных вычислений, поддерживающих алгоритмы искусственного интеллекта. В результате этого шага ускорители NVIDIA смогут работать в связке с ЦП всех ключевых серверных архитектур, включая x86, POWER и ARM.

До конца года NVIDIA откроет экосистеме ARM доступ к полному стеку программного обеспечения для ИИ и HPC, способному ускорять свыше 600 HPC-приложений и все ИИ-фреймворки. Стек включает все библиотеки NVIDIA CUDA-X AI и HPC, ускоренные при помощи графических процессоров ИИ-фреймворки и инструменты программной разработки, такие как PGI-компиляторы с поддержкой OpenACC и профилировщики.

Поддержка NVIDIA HPC-систем на базе ARM станет результатом 10-летнего сотрудничества компаний. NVIDIA использует архитектуру ARM в ряде своих однокристальных систем, рассчитанных на рынки портативных игровых устройств, автономных автомобилей, робототехники и встраиваемых вычислительных ИИ-систем. Подробности читайте на ServerNews →

AMD выпустила двухпроцессорную карту для рынка HPC на базе Fiji

Буквально неделю назад, описывая новую версию профессионального ускорителя NVIDIA Quadro M6000, мы упомянули, что единственным его соперником может являться Radeon Pro Duo, и то с учётом в три раза меньшего объёма локальной памяти (8 Гбайт против 24 Гбайт у NVIDIA). Но вот в том, что Advanced Micro Devices не выпустит других профессиональных ускорителей на базе архитектуры Fiji, мы оказались неправы! Компания представила новинку, предназначенную для рынка супервычислений —  ускоритель FirePro S9300 X2 с пиковой производительностью 13,9 Тфлопс. Так что новинка является самым быстрым вычислительным ускорителем вычислений одинарной точности в мире.

Типичный серверный ускоритель полагается на общую систему охлаждения

Типичный серверный ускоритель полагается на общую систему охлаждения

Это, разумеется, не конкурент Quadro M6000 —  плата не только не имеет разъёмов для подключения каких-либо устройств, она даже в охлаждении полагается на систему сервера, например, такую, как в недавно описанном GIGABYTE G25N-G51, способном вместить до восьми вычислительных ускорителей. Для удержания теплопакета в приемлемых рамках частоты графических ядер S9300 X2 были снижены до 850 МГц. А вот с памятью, по понятным причинам, ничего поделать не удалось и её объём остался прежним —  8 Гбайт в сборках HBM, по четыре сборки ёмкостью 1 Гбайт на чип. Это базовое ограничение конструкции Fiji и преодолеть его нельзя никак, пока не будет развёрнуто производство HBM2. Но эту память унаследует лишь AMD Vega, и сравнительно нескоро. А для организации внешних кешей на базе обычной DRAM у Fiji, похоже, просто нет нужных выводов.

Технические параметры FirePro S9300 X2

Технические параметры FirePro S9300 X2

Новинка AMD явно нацелена на конкуренцию с NVIDIA Tesla M60: последний также является чисто вычислительным ускорителем, также имеет два графических процессора на борту (GM204) и превосходит решение AMD только в объёме локальной памяти: 16 против 8 Гбайт суммарно. M60 создавался с расчётом на использование в игровых системах с удалённым рендерингом, но, похоже, S9300 X2 подойдёт на эту роль гораздо лучше: если у решения NVIDIA пиковая производительность в FP32 составляет 7,4 терафлопса, то у карты AMD этот показатель почти вдвое выше при аналогичном теплопакете — 300 ватт под нагрузкой. FirePro S9300 явный чемпион в категории «производительность на ватт», где может похвастаться 46 гигафлопсами на ватт против 25 у Tesla M60. Иными словами, система на базе S9300 X2 сможет обслуживать больше игровых клиентов при равном уровне энергопотребления.

AMD собирается завоевать рынок супервычислений универсальностью

AMD собирается завоевать рынок супервычислений универсальностью

А вот ускорителям Tesla серии K FirePro S9300 X2 не конкурент — те рассчитаны на высокие показатели в режиме двойной точности (FP64) и предназначены для работы в совсем иных сферах. Так, Tesla K80 может выдавать до 2,91 Тфлопс FP64, в то время как FirePro S9300 X2 сможет выжать в этом режиме лишь жалкие 0,8 терафлопса. В этой категории новинка уступает даже собственному родственнику, ускорителю FirePro S9170, развивающему вполне серьёзные 2,6 терафлопса при двойной точности вычислений. Вот в чём новичку действительно нет равных, так это в пропускной способности памяти: решения NVIDIA пока не располагают даже HBM первого поколения, не говоря уже о более продвинутых типах памяти, а S9300 X2 уже сейчас легко может предложить 512 Гбайт/с, а в некоторых сценариях (CrossFire-подобных) — и 1024 Гбайт/с. Стоимость нового вычислительного ускорителя AMD вполне соответствует нише и составляет $5999, что заметно дороже NVIDIA Quadro M6000. Впрочем, цена впоследствии может быть снижена. Окно доступности новинки — второй квартал.

NVIDIA оснастила Quadro M6000 вдвое большим объёмом памяти

Как известно, архитектура NVIDIA Maxwell не лучший вычислитель, если речь идёт о двойной точности (FP64). Но такая точность, востребованная в научных расчётах, требуется далеко не везде — во многих приложениях, таких как рендеринг 3D-графики или обработка видео, достаточно и одинарной точности (FP32). И вот тут-то ускоритель NVIDIA Quadro M6000 практически вне конкуренции: 7 терафлопс и поддержка 36-битного цвета делают своё дело. А буквально вчера компания решила немного обновить свой флагманский ускоритель на базе Maxwell.

Позвольте представиться: царь!

Позвольте представиться: царь!

Новая версия Quadro M6000 сохранила прежние технические характеристики: её сердцем по-прежнему является чип GM200-400-A1 с активными 24 модулями SMM, что даёт в распоряжение системы 3072 активных ядра CUDA. Такая конфигурация присуща только M6000 и TITAN X. Текстурных блоков и блоков растровых операций, разумеется, по-прежнему 192 и 96, объём кеша графического процессора составляет 3 Мбайт, а с памятью чип общается посредством шести 64-битных контроллеров, что в сумме даёт 384-битную шину с приличной потенциальной пропускной способностью.

Quadro M6000: король рендеринга

NVIDIA Quadro M6000 в цифрах

Хотя частоту ядра компания оставила неизменной, сохранив значение 988 МГц в обычном режиме, объём локальной видеопамяти был увеличен с 12 до 24 Гбайт ввиду того, что современные задачи обработки видео и 3D с учётом роста популярности разрешения 4K требуют всё больше и больше ресурсов и до памяти весьма охочи. Частота памяти, впрочем, не изменилась. Она по-прежнему составляет 6,6 ГГц, что обеспечивает пропускную способность 317,4 Гбайт/с. Не так много в сравнении с AMD Fiji, но для большинства задач достаточно. В задачах, где востребован M6000, объём оказался куда важнее скорости.

Создатели фильмов действительно нуждаются в больших объёмах видеопамяти

Создатели фильмов действительно нуждаются в больших объёмах видеопамяти

Конфигурация интерфейсов немного изменилась —  место одного из четырёх разъёмов DisplayPort 1.2 занял разъём HDMI. Порт DVI-I остался на своём месте. Несмотря на всю свою мощь, Quadro M6000 имеет весьма умеренный теплопакет, составляющий всего 225 ватт. Ускоритель требует подключения только одного восьмиконтактного разъёма питания, что разительно отличает его от игровых карт, на которых таких разъёмов может быть целых три. Система охлаждения используется та же, что и в TITAN X, а значит, учитывая сравнительно умеренный характер Quadro M6000 по части энергопотребления и тепловыделения, проблем с отводом тепла быть не должно.

Ускорители NVIDIA Quadro: такие разные и все вместе

Ускорители NVIDIA Quadro: такие разные и все вместе

По-прежнему поддерживается интерфейс SLI, позволяющий объединять до четырёх карт M6000 в единую графическую или вычислительную систему. Что самое приятное для заказчиков —  NVIDIA решила оставить цену на обновлённый вариант Quadro M6000 прежней — $5000. Соперников у данного решения практически нет. AMD FirePro S9170 несёт на борту 32 Гбайт памяти, но это чистый вычислительный ускоритель, лишённый каких-либо мониторных разъёмов, а FirePro W9100 имеет лишь 16 Гбайт GDDR5 и развивает всего 5,24 терафлопса в режиме одинарной точности.

Radeon Pro Duo: единственная угроза королю?

Radeon Pro Duo: единственная угроза королю?

Единственным настоящим врагом Quadro M6000 является недавно анонсированный двухпроцессорный ускоритель AMD Radeon Pro Duo с максимальной теоретической производительностью 16 терафлопс, причём стоящий всего $1500, зато располагающий лишь 8 Гбайт видеопамяти. Другие решения на базе AMD Fiji предназначены в основном для игр и не снабжаются нужной программной поддержкой и сертификацией. Поскольку AMD вовсю готовится к запуску архитектуры Polaris, появление карт серии FirePro на базе ядра Fiji маловероятно. Следующий раунд состязания между профессиональными ускорителями AMD и NVIDIA будет между Polaris и Pascal.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

NVIDIA и Нью-Йоркский университет создадут алгоритмы искусственного интеллекта для GPU

Постоянно растущая вычислительная мощность графических процессоров зачастую находит свое применение далеко за пределами индустрии развлечений, свидетельством чему — множество проектов, реализующих их потенциал в приложениях общего назначения. Компания NVIDIA, как разработчик, не остаётся в стороне от этого процесса, с завидной регулярностью представляя публике всё новые и новые инициативы.

На сей раз пристального внимания удостоились исследования Нью-Йоркского университета в области искусственного интеллекта, которому NVIDIA намерена помогать в оптимизации алгоритмов глубинного обучения. Организации объявили о сотрудничестве, целью которого станет совместная разработка приложений, способных эффективно исполняться крупномасштабными системами на основе GPU.

Возможная сфера применения таких решений необычайно широка и простирается от облачных хранилищ изображений до бытовой техники и автомобилей. В своем блоге специалисты компании подчёркивают, что механизмы глубинного обучения постоянно совершенствуются, ставя своей целью вознести искусственный интеллект на один уровень с человеческими возможностями, либо превзойти их.

Особенности архитектуры графических процессоров позволяют исследователям сократить время симуляции работы нейронных сетей на дни и порою месяцы, однако до сего времени возможности моделирования были ограничены отсутствием распределения вычислений на несколько GPU. Понимая это, ученые разработали новую масштабируемую систему глубинного обучения ScaLeNet и установили её на состоящий из восьми узлов кластер, собранный на основе двухпроцессорных графических ускорителей NVIDIA Tesla K80.

Новая система позволит исследователям заняться симулированием человеческой модели поведения при решении различного рода задач, что в конечном итоге должно привести к прогрессу в таких областях, как машинный перевод речи в режиме реального времени, автономное транспортное движение, анализ медицинских снимков и многое другое. Ну а разработанные специально для этих целей специализированные библиотеки CUDA Deep Neural Network (cuDNN) призваны обеспечить максимальную эффективность исследований.

Видеокарты NVIDIA помогли сделать открытие в области диетологии

NVIDIA объявила о новом открытии в области физиологии и диетологии, которое стало возможно в результате анализа огромных массивов данных с помощью графических процессоров NVIDIA.

Группа учёных из британского института сделала открытие, которое заключается в том, что разные типы жиров накапливаются в организме человека в разных местах. Так, например, животные жиры предпочитают откладываться на ягодицах, а молочные — в области груди. Зная о местах аккумулирования тех или иных видов жира, можно с лёгкостью корректировать свою диету, наращивая или уменьшая проблемные места своего тела.

Британские учёные сообщают, что продолжают работать над классификацией жиров, чтобы любой желающий исключительно за счёт коррекции питания мог, например, нарастить губы и одновременно сделать тоньше шею. Учёные уже проверяют свои открытия на животных.

Возможные характеристики Quadro M6000 на базе GM200: 3072 ядер CUDA, 12 Гбайт VRAM

NVIDIA может так и не впустить потоковые ускорители Tesla на базе GM200 или любого другого чипа Maxwell (переход будет совершён сразу на архитектуру Pascal). Но, похоже, обновлённая линейка Quadro вскоре будет представлена. По крайней мере, появилась информация о характеристиках видеокарты Quadro M6000, которая заменит Quadro K6000 и будет основана на чипе NVIDIA Maxwell GM200.

Стоит отметить, что архитектура Maxwell уже давно проложила путь в линейку Quadro, но речь шла о простых ускорителях на базе GM107 (первое поколение Maxwell). Грядущие же карты будут использовать высокопроизводительные чипы GM200 и GM204. Сведения о характеристиках флагманского ускорителя Quadro стали известны благодаря отчётам утилиты GPU-Z.

Карта, о которой идёт речь, проходит под идентификатором 10DE – 17F0. Учитывая, что текущие ускорители Maxwell тоже имеют в идентификаторе 17F0, речь может действительно идти о флагманском чипе GM200. Итак, характеристики ускорителя Quadro M6000 включают 3072 потоковых процессоров против 2048 в современном чипе GM204. Учитывая тот факт, что один вычислительный блок SMM в архитектуре Maxwell включает 128 потоковых процессоров, речь идёт о 24 блоках SMM. Кроме того, ускоритель включает 96 блоков растровых операций и 192/256 текстурных блоков.

Пиксельная скорость заполнения достигает 94,8 гигапикселей/с, а текстурная — 252,9 гигатекстелей/с. Рабочая частота GPU составляет 988 МГц (Boost-частота не сообщается). Ускоритель вряд ли получит менее 12 Гбайт видеопамяти GDDR5, ведь он приходит на смену K6000, который оснащается таким объёмом буфера. Интерфейс памяти останется 384-битным, а частота будет повышена до 6,6 ГГц (это даёт до 317,4 Гбайт/с).

Характеристики выглядят весьма впечатляюще, однако сложно сказать, идёт ли речь о полноценном чипе GM200 или же о его урезанном в целях экономии варианте. Учитывая тот факт, что Quadro K6000 основана на полноценном чипе GK110, есть основания ожидать того же и от Quadro M6000. Версия ускорителя GeForce на базе GM200 наверняка получит меньше памяти, более высокую частоту и оптимизации для игр.

NVIDIA представила «двуглавого монстра» Tesla K80

Компания NVIDIA официально представила свой ускоритель Tesla K80, который она гордо называет «самым высокопроизводительным в мире». Новинка с двумя мощными видеочипами GK210 нацелена на использование в самых разнообразных приложениях, включая машинное обучение, анализ данных, научные исследования и расчеты, HPC-приложения.

NVIDIA

NVIDIA

Новый ускоритель является флагманом линейки Tesla Accelerated Computing. Как и другие представители данной платформы, устройство поддерживает технологию CUDA. По сравнению с предшественницей, моделью Tesla K40, новинка отличается примерно в 1,75 раза более высокой производительностью и почти удвоенной пропускной способностью памяти. При этом по скорости вычислений K80 в десять раз превосходит самый быстрый современный CPU, утверждает NVIDIA.

NVIDIA

NVIDIA

Среди технических особенностей «двуглавого монстра» можно выделить 24 Гбайт GDDR5-памяти (по 12 Гбайт на один GPU), пропускную способность памяти 480 Гбайт/с, 4992 CUDA-ядер, поддержку NVIDIA GPU Boost.

Новинка уже отгружается заказчикам, среди которых присутствуют ASUS, Cray, Dell, GIGABYTE, HP, Supermicro, Tyan и многие другие.

NVIDIA добавляет в платформу CUDA модель унифицированной памяти

Компания NVIDIA объявила об улучшении предоставляемых ей программных инструментов, облегчающих разработку программ, загружающих вычислениями как CPU, так и GPU. Анонс касается CUDA 6 – новой версии платформы программирования параллельных вычислений, упрощающей решение таких задач на суперкомпьютерах, рабочих станциях и традиционных ПК. Основной целью CUDA является предоставление разработчикам базовых средств, упрощающих перенос нагрузки с CPU на GPU при создании научных, инженерных, корпоративных и других приложений.

Главным достоинством CUDA 6 следует считать внедрение модели унифицированной памяти, что делает доступ к данным, хранящимся в памяти видеоускорителя, столь же простым, как и к данным, размещённым в обычной оперативной памяти. Ранее перемещение данных из основной памяти в видеопамять для обработки силами GPU и их обратное возвращение приводило к необходимости программирования дублирования информации и лишним трудозатратам. Теперь же, с моделью унифицированной памяти, разработчикам не придётся специально заботиться о перемещении данных, прежде чем начать их обработку на вычислительных мощностях графического ускорителя. Весь необходимый менеджмент памяти берёт на себя новая платформа параллельных вычислений.

Следует отметить, что модель унифицированной памяти, введённая NVIDIA, идеологически близка к технологии Heterogenous Unified Memory Access (hUMA), реализующей разделение памяти между процессорами разных типов. Спецификация hUMA позволяет программировать гетерогенные вычисления, не задумываясь  местоположении данных, так как она предполагает создание единого адресного пространства. Однако NVIDIA не входит в разрабатывающий эту спецификацию фонд HSA, членами которого являются компании AMD, ARM, Qualcomm и другие.

Внедрение в CUDA 6 модели унифицированной памяти попадает в общую струю разработок NVIDIA, которая давно обозначила своей целью сделать память общим ресурсом для CPU и GPU на аппаратном уровне. Новая версия этой платформы предлагает временное программное решение этой задачи, но впоследствии можно ожидать более глубокого развития идеи унифицированной памяти. В частности, воплощение модели общей памяти для CPU и GPU можно ожидать от NVIDIA в перспективном мобильном чипе Tegra 6 (Parker) и графических ускорителях поколения Maxwell.

Использование графических карт для ускорения вычислений общего назначение – достаточно популярная тенденция, которая находит всё более широкое применение в суперкомпьютерах и рабочих станциях. Поэтому развитие платформы CUDA можно только приветствовать. В прошлой версии CUDA 5.5 компания NVIDIA добавила совместимость с процессорами c ARM-архитектурой. Теперь же, помимо модели унифицированной памяти, в CUDA 6 появились автоматическая интеграция и масштабирование. Увеличения производительности за счёт переноса параллельных вычислений на GPU теперь можно добиться простой заменой программных библиотек, которые получили поддержку до восьми графических процессоров.

Российская «Фаствидео» создала сверхбыстрый кодек JPEG, использующий NVIDIA CUDA

Хотя формат JPEG уже достаточно стар, он до сих пор является самым используемым для кодирования и декодирования изображений в мире. В настоящее время большинство электронных устройств легко справляются с обработкой JPEG, однако есть немало областей, где быстрое кодирование и декодирование изображений в этом формате имеет первостепенное значение. Например, в различных веб-приложениях, при работе с профессиональным оборудованием, способном создавать огромные потоки изображений, в системах видеосъёмки с высокой частотой кадров и высоким разрешением, в задачах визуализации, включая работу с изображениями 4K и 8K в режиме реального времени.

Поэтому новая разработка российской «Фаствидео» весьма интересна — основанная в 2009 году компания создала сверхбыстрый кодек JPEG, использующий аппаратные ресурсы видеокарт NVIDIA через технологию CUDA для ускорения компрессии и декомпрессии изображений с помощью параллельных вычислений. Разработчики утверждают, что ими была реализована и оптимизирована схема, в которой распараллелены абсолютно все стадии алгоритма JPEG, включая энтропийное кодирование и декодирование. Это позволило добиться очень высокой производительности кодека и оставить позади конкурентные продукты.

Использование для расчётов GPU также позволяет высвободить ресурсы CPU для других задач и оптимизировать энергопотребление системы. Кодек JPEG от «Фаствидео» способен сжать в 10 раз цветное изображение с разрешением 3840 x 2160 всего за 6 миллисекунд. На графическом процессоре NVIDIA GeForce GTX Titan производительность JPEG может достигать 6 Гбайт в секунду.

Пока комплект разработчика JPEG SDK для кодирования и декодирования изображений в формате JPEG предлагается для ОС Windows 7/8 и видеокарт NVIDIA серий 400, 500, 600 и 700. Демонстрационную версию кодека JPEG для видеокарт NVIDIA можно получить на сайте «Фаствидео». В скором времени обещан выход кодека JPEG и для Linux.

Использование CUDA для художественных инсталляций

В галерее Boston Cyberarts с 14 июня по 28 июля проходит мультимедийная художественная выставка Collision19:COmpress/DECompress, экспонаты которой выполнены с помощью научных расчетов и высокопроизводительных вычислений на GPU.

Например, композиция «Всё сделано из Атомов» (Everything is Made of Atoms), созданная Джеймсом Сузинно (James Susinno) и Марком Стоком (Mark Stock), интерпретирует изображение зрителя в интерактивную сцену, состоящую из тысяч частиц, постоянно отрывающихся от тела и инерционно реагирующих на движения зрителя.

С помощью компьютера на базе графического процессора GeForce GTX 660Ti датчик глубины анализирует разнообразные данные изображения зрителя, глубину, силуэт и скелет, которые затем с помощью приложения на C++/OpenGL/CUDA складываются в определенную геометрическую картинку на экране.

Прямой метод решения задачи N-тел при вихревом моделировании, написанный на CUDA, управляет жидкостным моделированием в реальном времени и рассчитывает расположение и ориентацию колеблющихся частиц. Графический процессор выполняет моделирование динамики вихря, отрисовывает десятки тысяч частиц и грунтовую текстуру 8000 х 8000 на мониторе ультравысокого разрешения с частотой 30 кадр./с.

Вторая инсталляция «Dial-A-Style» на базе CUDA в галерее Boston Cyberarts создана Робертом Гонзалвесом (Robert Gonsalves). Эта интерактивная композиция позволяет посетителям создавать цифровые автопортреты в различных творческих стилях.

Посетитель крутит специальное колесо, которое может остановиться на одном из четырех стилях — импрессионизм в стиле Винсента Ван Гога, кубизм, пуантилизм и аниме — или на границе между стилями, рождая гибридный портрет. Затем делается снимок посетителя, на основе которой создаётся стилизованная картина.

Программа в основе колеса написана на C++ и использует ядра CUDA для решения квадратных уравнений в рамках анализа собственных значений для определения ориентации градиента с помощью структурных тензоров. Этот метод применяется в сочетании с алгоритмами обработки изображений XDoG для достижения конечного результата. Вся система работает на базе видеокарты GeForce 9600 GT.

Материалы по теме:

Источник:

window-new
Soft
Hard
Тренды 🔥