Теги → cuda
Быстрый переход

NVIDIA CUDA можно использовать на ускорителях Intel, но пока лишь в Geekbench

Использование графических ускорителей для задач, выходящих за рамки простого рендеринга 3D-графики — та отрасль, которая принесла NVIDIA миллиарды в секторе центров обработки данных (а теперь — и в майнинге). Её собственная платформа CUDA и API с самого начала были эксклюзивными для видеокарт компании. Но теперь технология доступна и на ускорителях Intel.

Конечно, и раньше существовали инструменты для переноса приложений CUDA на широко поддерживаемые языки вроде OpenCL. Однако даже полуавтоматические инструменты, такие как HIPCL, требовали вмешательства разработчика. А вот новая библиотека ZLUDA обещает запускать приложения CUDA непосредственно на графических процессорах Intel без каких-либо изменений. ZLUDA использует Intel oneAPI Level Zero для трансляции или эмуляции команд CUDA.

Разработчики ZLUDA описывают своё детище как прямую замену CUDA на системах с графическими процессорами Intel, используемыми в процессорах Skylake и более поздних. Новейшая версия поддерживает как Windows, так и Linux с графикой 9-го поколения или более новой. По словам разработчиков, ZLUDA способна достигать почти той же производительности, как если бы код был скомпилирован напрямую. Но пока есть и большие ограничения: поддерживаемая функциональность существенно ограничена. По сути, в настоящее время библиотека реально работает только в Geekbench, а потенциальных пользователей предупреждают, что не следует полагаться на неё при разработке важного ПО.

Использование ZLUDA в Windows кажется достаточно простым. Для этого нужно загрузить последнюю сборку со страницы ZLUDA в GitHub. Скачанный архив включает в себя «оболочку» для запуска любого приложения с поддержкой CUDA и необходимую библиотеку. Затем следует просто запустить оболочку из командной строки с приложением в качестве аргумента (zluda_with -- geekbench5 --compute CUDA). Впрочем, у журналистов Hot Hardware этот способ выдал ошибку.

В Linux автор ZLUDA смог прогнать тесты для Core i5-8700K, набрав 6333 балла с CUDA с использованием встроенной графики UHD 630 против 6482 баллов при исполнении через OpenCL. Это небольшое общее снижение производительности, но есть любопытные нюансы. Некоторые тесты Geekbench оказались значительно медленнее, но, например, тест Stereo Matching был примерно на 50 % быстрее с использованием ZLUDA, чем с OpenCL.

Сравнение результатов тестов в Geekbench через ZLUDA и OpenCL

Сравнение результатов тестов в Geekbench через ZLUDA и OpenCL

Другими словами, у создателей ZLUDA впереди ещё долгий путь — библиотека прошла только через выход второй крупной сборки. Тем не менее, это интересный проект. Видеокарты Intel DG1 уже выпущены для OEM-производителей, и кажется, что более быстрые DG2 не за горами. Хотя интегрированная графика служит интересным доказательством концепции, нет никаких сомнений в том, что дискретная графика Intel куда интереснее в перспективе для ZLUDA.

Глава NVIDIA пообещал не убивать графику Arm Mali после объединения компаний

Участие глав NVIDIA и Arm в импровизированной конференции на Саммите разработчиков позволило услышать позиции руководства компаний по дальнейшему развитию бизнеса после предстоящей сделки по объединению. Оба выражают уверенность, что она будет одобрена, а основатель NVIDIA ещё и утверждает, что не даст загубить фирменную графику Arm Mali.

Источник изображения: Arm

Источник изображения: Arm

Дженсен Хуанг (Jensen Huang) с самого момента официального объявления о сделке с Arm не скрывал, что намеревается распространять графические решения NVIDIA среди клиентов британской компании. На недавнем мероприятии для разработчиков он выразил уверенность, что регуляторы разных стран не станут препятствовать сделке между NVIDIA и Arm, как только поймут, что компании дополняют друг друга, а действовать будут только во благо клиентов.

Экосистему Arm компания NVIDIA собирается использовать для продвижения своих технологий компьютерного зрения и визуализации, как пояснил основатель последней из компаний. Он подтвердил, что сделка не лишит Arm возможности развивать собственные линейки графических (Mali) и нейронных (NPU) процессоров, поскольку у каждой из них найдутся свои клиенты.

Попутно Дженсен Хуанг признался, что NVIDIA присматривалась к экосистеме Arm несколько лет, и только сейчас поняла, что она достигла той степени зрелости, когда выиграет от интеграции с решениями и технологиями самой NVIDIA, распространяясь за пределы сегмента мобильных устройств. Высокопроизводительные и периферийные вычисления, облачные системы и автономный транспорт — эти сферы будущие владельцы активов Arm считают подходящими для экспансии разрабатываемых британской компанией платформ.

NVIDIA стремится создать единую среду, в которой могут эффективно использоваться разработанные обеими компаниями архитектуры. Собственные программные библиотеки NVIDIA будет адаптировать под архитектуру Arm. Началась работа с тремя клиентами Arm, разрабатывающими процессоры для серверного применения — компаниями Fujitsu, Ampere и Marvell. Обеспечивать поддержку новой единой экосистемы NVIDIA обязуется «пожизненно», как выразился генеральный директор компании.

NVIDIA отгрузила более миллиарда GPU с поддержкой CUDA

Одним из главных достижений минувшего квартала, по словам представителей NVIDIA, стало превышение серверной выручкой денежных поступлений от игровых продуктов. Оно символизирует эволюционную трансформацию бизнес-модели компании, хотя третий квартал и должен вернуть игровой бизнес на вершину на какое-то время. В серверном сегменте ставка делается на Ampere.

Источник изображения: YouTube, NVIDIA

Источник изображения: YouTube, NVIDIA

Финансовый директор Колетт Кресс (Colette Kress) в подготовленной части доклада заявила, что NVIDIA отгрузила более миллиарда графических процессоров с поддержкой CUDA, а количество разработчиков приложений в этой среде программирования достигло двух миллионов. Чтобы разменять первый миллион, базе разработчиков потребовалось более десяти лет, а второй миллион был набран менее чем за два года.

По словам главы NVIDIA Дженсена Хуанга (Jensen Huang), уже сейчас графические процессоры семейства Ampere формируют около четверти выручки на направлении компонентов для центров обработки данных. Облачные гиганты, по прогнозам NVIDIA, в третьем квартале будут активно закупать ускорители вычислений на основе архитектуры Ampere. Её глава называет гигантским прорывом и обещает, что жизненный цикл платформы Ampere растянется на несколько лет. Умеренную динамику выручки на серверном направлении в третьем квартале будет отчасти компенсировать активная экспансия продуктов с архитектурой Ampere, как ожидает руководство компании.

Почти 8000 ядер CUDA: обнаружен ещё один графический процессор NVIDIA нового поколения

Количество слухов и утечек о будущих графических процессорах NVIDIA нового поколения заметно увеличилось. Буквально на днях мы писали о том, что в базе данных теста производительности Geekbench обнаружились упоминания двух ускорителей на новых GPU, как там же был обнаружен и третий ускоритель на ещё более мощном чипе.

В прежней утечке фигурировали ускорители на неких графических процессорах со 108 и 118 мультипроцессорами, тогда как теперь «засветился» чип, обладающий 124 мультипроцессорами. Вероятнее всего, это также несколько «урезанная» версия некоего флагманского графического процессора NVIDIA — скорее всего, полноценная версия чипа должна обладать 128 мультипроцессорами.

Тактовая частота протестированного графического процессора составила 1,11 ГГц. Можно предположить, что такая невысокая частота указывает на принадлежность ускорителя к профессиональным решениям. Также на это указывает использованная здесь память: её объём составляет 32 Гбайт, что очень много для потребительского сегмента, а судя по частоте в 1,2 ГГц, это память HBM2e. С большой долей вероятности, мы смотрим на преемников ускорителей вычислений Tesla V100.

На данный момент неизвестно, являются ли обнаруженные чипы носителями архитектуры Ampere или какой-либо другой. Также сложно сказать, сколько именно ядер CUDA приходится на каждый мультипроцессор. Если их, как и в случае с Volta и Pascal, будет по 64 на мультипроцессор, то полная версия чипа будет обладать 8192 ядрами CUDA, а обнаруженный сейчас образец со 124 мультипроцессорами — 7936 ядер CUDA.

И ещё остаётся вопрос, выполнены ли все эти «засветившиеся» графические процессоры в форме одного большого кристалла или же состоят из нескольких. Даже с учётом перехода на 7-нм техпроцесс, монолитный кристалл со столь большим количеством ядер получится очень большим, что сделает его очень дорогим. С другой стороны, в сфере больших вычислений и цены совершенно другие. Будем надеяться, что на предстоящей GTC компания NVIDIA прольёт свет на эти утечки и в целом на свои будущие графические процессоры.

Искусственный интеллект: NVIDIA не сомневается в сохранении лидирующих позиций

Долгие годы NVIDIA формировала фундамент в сегменте ускорения вычислений силами графических процессоров за счёт своей экосистемы CUDA. В последнее время появляется много желающих предложить специализированные ускорители для систем искусственного интеллекта, но представители NVIDIA убеждены, что позициям компании на этом рынке мало что угрожает в ближайшие годы.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

По итогам третьего квартала выручка NVIDIA от реализации графических процессоров всех типов достигла $2,57 млрд. В игровом сегменте она выручила $1,66 млрд. Если учесть, что часть игровой выручки была сформирована компонентами для консолей Nintendo Switch, которые не относятся к категории графических процессоров, то более миллиарда долларов США компания должна была получить от реализации графических процессоров за пределами игрового сегмента. Действительно, самая крупная после игрового сегмента статья доходов NVIDIA — это центры обработки данных, выручка на этом направлении в третьем квартале достигла $726 млн. Ещё $324 млн выручки пришлись на сегмент профессиональных графических адаптеров.

По словам аналитиков Jefferies, которые накануне встретились с вице-президентом NVIDIA по связям с инвесторами Симоной Янковски (Simona Jankowski), руководство компании убеждено в сохранении за ней лидирующих позиций в серверном и игровом сегментах рынка. Графические процессоры марки всё более активно используются в системах искусственного интеллекта, а количество игр с поддержкой трассировки лучей растёт уверенными темпами. Свои позиции в сегменте систем искусственного интеллекта NVIDIA достаточно хорошо защитила популярностью среди разработчиков собственных графических процессоров и связанной с ними программной экосистемы. По мнению авторов аналитической записки, в ближайшее время NVIDIA будет развивать свой бизнес на этом направлении с большим отрывом от конкурентов.

Первый 7-нм продукт NVIDIA выйдет не ранее следующего полугодия

Недавнее знакомство с актуальными слухами о возможных характеристиках 7-нм графических процессоров NVIDIA поколения Ampere носило весьма общий характер, а сроки их дебюта были привязаны к неопределённому периоду 2020 года. Между тем давно известно, что NVIDIA старается самые дорогие и передовые технологические решения отрабатывать в сегменте ускорителей вычислений, поскольку они там окупаются лучше, а фактическое доминирование компании в данном сегменте рынка позволяет ей смелее экспериментировать.

Источник изображения: Twitter, NVIDIA

Источник изображения: Twitter, NVIDIA

Аналитики Raymond James убеждены, что в этом году NVIDIA не выпустит свой первый 7-нм графический процессор, хотя ранее такая вероятность допускалась. Теперь дебют ускорителя вычислений, который будет основан на 7-нм графическом процессоре, намечен на первую половину 2020 года. По большому счёту, формальный анонс может состояться и в первом квартале, поскольку начать год с соответствующего заявления для NVIDIA было бы выгодно.

Если обратиться к истории официальных упоминаний о планах NVIDIA по выпуску преемника Volta, то особых сигналов, говорящих о близости анонса Ampere, представители компании до сих пор не давали. Южнокорейское представительство NVIDIA сообщило местным СМИ, что в следующем году компания будет сотрудничать с Samsung в рамках выпуска 7-нм продукции. Основатель NVIDIA Дженсен Хуанг (Jen-Hsun Huang) позднее заявил на квартальном мероприятии, что архитектура Volta будет весьма востребована в серверном сегменте вплоть до конца следующего года, и причин срочно выпускать преемника он не видит. Даже недавние признания руководства Intel в готовности выпустить серверный 7-нм графический процессор в конце 2021 года вряд ли могут мотивировать NVIDIA соответствующим образом — время в запасе ещё есть.

Специалисты Raymond James поясняют, что по состоянию на конец прошлого квартала партнёры NVIDIA не демонстрировали никакой активности, типичной для периода подготовки к анонсу важного продукта нового поколения. Это и позволяет экспертам сделать вывод, что дебют 7-нм изделий данной марки намечен на первый или даже второй квартал следующего года. На квартальной отчётности ближайших периодов такой график скажется отрицательно, но в долгосрочной перспективе потенциал NVIDIA в серверном сегменте он не ослабит, как считают авторы аналитической записки.

NVIDIA пока не видит необходимости выпускать преемников Volta и Turing

Основателя и бессменного руководителя корпорации NVIDIA достаточно сложно вывести на откровенный разговор о будущих продуктах марки, поскольку все провокационные вопросы на отраслевых мероприятиях он не оставляет без ответа, но сообщает ровно ту информацию, которой хотел бы поделиться без ущерба для соблюдения коммерческой тайны. На минувшей квартальной конференции Дженсена Хуанга (Jen-Hsun Huang) спросили о готовности компании предложить преемника для архитектуры Volta в сегменте ускорителей вычислений, а также перевести соответствующие продукты на 7-нм технологию изготовления.

Стоит напомнить, что о намерениях NVIDIA начать поставки 7-нм продуктов не ранее следующего года мы знаем из публикаций южнокорейских СМИ, которые ссылались на откровения местного представительства компании по поводу перспектив сотрудничества с Samsung. До сих пор Дженсен Хуанг либо уходил в сторону от обсуждения планов по миграции на 7-нм технологию, либо подвергал критике саму идею «гонки за нанометрами», попутно прославляя инженеров компании за способность создавать крупные монолитные кристаллы. На этой неделе он вообще сделал вид, что в вопросе не упоминался новый техпроцесс, и сосредоточился на обсуждении жизненного цикла архитектуры Volta, которая компанией применяется в сегменте профессиональных решений.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Дженсен Хуанг заявил, что на формирование аппаратной базы в серверном сегменте уходят годы, и этот процесс подразумевает заблаговременное планирование. Volta в этом смысле, как убеждён руководитель компании, будет весьма успешна до конца следующего года, как минимум. Важную роль в развитии экосистемы играет программная оптимизация. Например, в сегменте систем искусственного интеллекта программистам удалось за один год с момента анонса Volta поднять быстродействие на 80 % без каких-либо аппаратных изменений. Программная среда CUDA эволюционирует на протяжении пятнадцати лет, и это очень тяжёлый труд. Что касается архитектуры Volta, то она сейчас переживает свои лучшие времена, по мнению генерального директора NVIDIA, и в следующем году предпосылок для изменения ситуации не предвидится.

Попутно глава компании отметил, что выгодному позиционированию графических решений Turing до конца следующего года тоже ничего угрожать не будет. Старт продаж видеокарт серии SUPER был очень успешным, и даже все предпринимаемые NVIDIA усилия по обеспечению поставок в необходимых количествах не исключают проявлений дефицита во многих торговых сетях. Там, где новые видеокарты есть в наличии, их стоимость обычно выше рекомендованной NVIDIA, и сам глава компании считает, что это явный признак успеха. Он также утверждает, что покупать сейчас видеокарту без поддержки RTX с перспективой эксплуатации от двух до четырёх лет совершенно неразумно. Будущее игровой индустрии глава NVIDIA неразрывно связывает с трассировкой лучей.

NVIDIA добавит поддержку ARM в экосистему CUDA

На конференции International Supercomputing Conference в Германии NVIDIA сделала важное заявление: она вскоре обеспечит поддержку ЦП с архитектурой ARM в своей программной экосистеме. Это позволит производителям создавать более экономичные суперкомпьютеры для экзафлопсных вычислений, поддерживающих алгоритмы искусственного интеллекта. В результате этого шага ускорители NVIDIA смогут работать в связке с ЦП всех ключевых серверных архитектур, включая x86, POWER и ARM.

До конца года NVIDIA откроет экосистеме ARM доступ к полному стеку программного обеспечения для ИИ и HPC, способному ускорять свыше 600 HPC-приложений и все ИИ-фреймворки. Стек включает все библиотеки NVIDIA CUDA-X AI и HPC, ускоренные при помощи графических процессоров ИИ-фреймворки и инструменты программной разработки, такие как PGI-компиляторы с поддержкой OpenACC и профилировщики.

Поддержка NVIDIA HPC-систем на базе ARM станет результатом 10-летнего сотрудничества компаний. NVIDIA использует архитектуру ARM в ряде своих однокристальных систем, рассчитанных на рынки портативных игровых устройств, автономных автомобилей, робототехники и встраиваемых вычислительных ИИ-систем. Подробности читайте на ServerNews →

AMD выпустила двухпроцессорную карту для рынка HPC на базе Fiji

Буквально неделю назад, описывая новую версию профессионального ускорителя NVIDIA Quadro M6000, мы упомянули, что единственным его соперником может являться Radeon Pro Duo, и то с учётом в три раза меньшего объёма локальной памяти (8 Гбайт против 24 Гбайт у NVIDIA). Но вот в том, что Advanced Micro Devices не выпустит других профессиональных ускорителей на базе архитектуры Fiji, мы оказались неправы! Компания представила новинку, предназначенную для рынка супервычислений —  ускоритель FirePro S9300 X2 с пиковой производительностью 13,9 Тфлопс. Так что новинка является самым быстрым вычислительным ускорителем вычислений одинарной точности в мире.

Типичный серверный ускоритель полагается на общую систему охлаждения

Типичный серверный ускоритель полагается на общую систему охлаждения

Это, разумеется, не конкурент Quadro M6000 —  плата не только не имеет разъёмов для подключения каких-либо устройств, она даже в охлаждении полагается на систему сервера, например, такую, как в недавно описанном GIGABYTE G25N-G51, способном вместить до восьми вычислительных ускорителей. Для удержания теплопакета в приемлемых рамках частоты графических ядер S9300 X2 были снижены до 850 МГц. А вот с памятью, по понятным причинам, ничего поделать не удалось и её объём остался прежним —  8 Гбайт в сборках HBM, по четыре сборки ёмкостью 1 Гбайт на чип. Это базовое ограничение конструкции Fiji и преодолеть его нельзя никак, пока не будет развёрнуто производство HBM2. Но эту память унаследует лишь AMD Vega, и сравнительно нескоро. А для организации внешних кешей на базе обычной DRAM у Fiji, похоже, просто нет нужных выводов.

Технические параметры FirePro S9300 X2

Технические параметры FirePro S9300 X2

Новинка AMD явно нацелена на конкуренцию с NVIDIA Tesla M60: последний также является чисто вычислительным ускорителем, также имеет два графических процессора на борту (GM204) и превосходит решение AMD только в объёме локальной памяти: 16 против 8 Гбайт суммарно. M60 создавался с расчётом на использование в игровых системах с удалённым рендерингом, но, похоже, S9300 X2 подойдёт на эту роль гораздо лучше: если у решения NVIDIA пиковая производительность в FP32 составляет 7,4 терафлопса, то у карты AMD этот показатель почти вдвое выше при аналогичном теплопакете — 300 ватт под нагрузкой. FirePro S9300 явный чемпион в категории «производительность на ватт», где может похвастаться 46 гигафлопсами на ватт против 25 у Tesla M60. Иными словами, система на базе S9300 X2 сможет обслуживать больше игровых клиентов при равном уровне энергопотребления.

AMD собирается завоевать рынок супервычислений универсальностью

AMD собирается завоевать рынок супервычислений универсальностью

А вот ускорителям Tesla серии K FirePro S9300 X2 не конкурент — те рассчитаны на высокие показатели в режиме двойной точности (FP64) и предназначены для работы в совсем иных сферах. Так, Tesla K80 может выдавать до 2,91 Тфлопс FP64, в то время как FirePro S9300 X2 сможет выжать в этом режиме лишь жалкие 0,8 терафлопса. В этой категории новинка уступает даже собственному родственнику, ускорителю FirePro S9170, развивающему вполне серьёзные 2,6 терафлопса при двойной точности вычислений. Вот в чём новичку действительно нет равных, так это в пропускной способности памяти: решения NVIDIA пока не располагают даже HBM первого поколения, не говоря уже о более продвинутых типах памяти, а S9300 X2 уже сейчас легко может предложить 512 Гбайт/с, а в некоторых сценариях (CrossFire-подобных) — и 1024 Гбайт/с. Стоимость нового вычислительного ускорителя AMD вполне соответствует нише и составляет $5999, что заметно дороже NVIDIA Quadro M6000. Впрочем, цена впоследствии может быть снижена. Окно доступности новинки — второй квартал.

NVIDIA оснастила Quadro M6000 вдвое большим объёмом памяти

Как известно, архитектура NVIDIA Maxwell не лучший вычислитель, если речь идёт о двойной точности (FP64). Но такая точность, востребованная в научных расчётах, требуется далеко не везде — во многих приложениях, таких как рендеринг 3D-графики или обработка видео, достаточно и одинарной точности (FP32). И вот тут-то ускоритель NVIDIA Quadro M6000 практически вне конкуренции: 7 терафлопс и поддержка 36-битного цвета делают своё дело. А буквально вчера компания решила немного обновить свой флагманский ускоритель на базе Maxwell.

Позвольте представиться: царь!

Позвольте представиться: царь!

Новая версия Quadro M6000 сохранила прежние технические характеристики: её сердцем по-прежнему является чип GM200-400-A1 с активными 24 модулями SMM, что даёт в распоряжение системы 3072 активных ядра CUDA. Такая конфигурация присуща только M6000 и TITAN X. Текстурных блоков и блоков растровых операций, разумеется, по-прежнему 192 и 96, объём кеша графического процессора составляет 3 Мбайт, а с памятью чип общается посредством шести 64-битных контроллеров, что в сумме даёт 384-битную шину с приличной потенциальной пропускной способностью.

Quadro M6000: король рендеринга

NVIDIA Quadro M6000 в цифрах

Хотя частоту ядра компания оставила неизменной, сохранив значение 988 МГц в обычном режиме, объём локальной видеопамяти был увеличен с 12 до 24 Гбайт ввиду того, что современные задачи обработки видео и 3D с учётом роста популярности разрешения 4K требуют всё больше и больше ресурсов и до памяти весьма охочи. Частота памяти, впрочем, не изменилась. Она по-прежнему составляет 6,6 ГГц, что обеспечивает пропускную способность 317,4 Гбайт/с. Не так много в сравнении с AMD Fiji, но для большинства задач достаточно. В задачах, где востребован M6000, объём оказался куда важнее скорости.

Создатели фильмов действительно нуждаются в больших объёмах видеопамяти

Создатели фильмов действительно нуждаются в больших объёмах видеопамяти

Конфигурация интерфейсов немного изменилась —  место одного из четырёх разъёмов DisplayPort 1.2 занял разъём HDMI. Порт DVI-I остался на своём месте. Несмотря на всю свою мощь, Quadro M6000 имеет весьма умеренный теплопакет, составляющий всего 225 ватт. Ускоритель требует подключения только одного восьмиконтактного разъёма питания, что разительно отличает его от игровых карт, на которых таких разъёмов может быть целых три. Система охлаждения используется та же, что и в TITAN X, а значит, учитывая сравнительно умеренный характер Quadro M6000 по части энергопотребления и тепловыделения, проблем с отводом тепла быть не должно.

Ускорители NVIDIA Quadro: такие разные и все вместе

Ускорители NVIDIA Quadro: такие разные и все вместе

По-прежнему поддерживается интерфейс SLI, позволяющий объединять до четырёх карт M6000 в единую графическую или вычислительную систему. Что самое приятное для заказчиков —  NVIDIA решила оставить цену на обновлённый вариант Quadro M6000 прежней — $5000. Соперников у данного решения практически нет. AMD FirePro S9170 несёт на борту 32 Гбайт памяти, но это чистый вычислительный ускоритель, лишённый каких-либо мониторных разъёмов, а FirePro W9100 имеет лишь 16 Гбайт GDDR5 и развивает всего 5,24 терафлопса в режиме одинарной точности.

Radeon Pro Duo: единственная угроза королю?

Radeon Pro Duo: единственная угроза королю?

Единственным настоящим врагом Quadro M6000 является недавно анонсированный двухпроцессорный ускоритель AMD Radeon Pro Duo с максимальной теоретической производительностью 16 терафлопс, причём стоящий всего $1500, зато располагающий лишь 8 Гбайт видеопамяти. Другие решения на базе AMD Fiji предназначены в основном для игр и не снабжаются нужной программной поддержкой и сертификацией. Поскольку AMD вовсю готовится к запуску архитектуры Polaris, появление карт серии FirePro на базе ядра Fiji маловероятно. Следующий раунд состязания между профессиональными ускорителями AMD и NVIDIA будет между Polaris и Pascal.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

NVIDIA и Нью-Йоркский университет создадут алгоритмы искусственного интеллекта для GPU

Постоянно растущая вычислительная мощность графических процессоров зачастую находит свое применение далеко за пределами индустрии развлечений, свидетельством чему — множество проектов, реализующих их потенциал в приложениях общего назначения. Компания NVIDIA, как разработчик, не остаётся в стороне от этого процесса, с завидной регулярностью представляя публике всё новые и новые инициативы.

На сей раз пристального внимания удостоились исследования Нью-Йоркского университета в области искусственного интеллекта, которому NVIDIA намерена помогать в оптимизации алгоритмов глубинного обучения. Организации объявили о сотрудничестве, целью которого станет совместная разработка приложений, способных эффективно исполняться крупномасштабными системами на основе GPU.

Возможная сфера применения таких решений необычайно широка и простирается от облачных хранилищ изображений до бытовой техники и автомобилей. В своем блоге специалисты компании подчёркивают, что механизмы глубинного обучения постоянно совершенствуются, ставя своей целью вознести искусственный интеллект на один уровень с человеческими возможностями, либо превзойти их.

Особенности архитектуры графических процессоров позволяют исследователям сократить время симуляции работы нейронных сетей на дни и порою месяцы, однако до сего времени возможности моделирования были ограничены отсутствием распределения вычислений на несколько GPU. Понимая это, ученые разработали новую масштабируемую систему глубинного обучения ScaLeNet и установили её на состоящий из восьми узлов кластер, собранный на основе двухпроцессорных графических ускорителей NVIDIA Tesla K80.

Новая система позволит исследователям заняться симулированием человеческой модели поведения при решении различного рода задач, что в конечном итоге должно привести к прогрессу в таких областях, как машинный перевод речи в режиме реального времени, автономное транспортное движение, анализ медицинских снимков и многое другое. Ну а разработанные специально для этих целей специализированные библиотеки CUDA Deep Neural Network (cuDNN) призваны обеспечить максимальную эффективность исследований.

Видеокарты NVIDIA помогли сделать открытие в области диетологии

NVIDIA объявила о новом открытии в области физиологии и диетологии, которое стало возможно в результате анализа огромных массивов данных с помощью графических процессоров NVIDIA.

Группа учёных из британского института сделала открытие, которое заключается в том, что разные типы жиров накапливаются в организме человека в разных местах. Так, например, животные жиры предпочитают откладываться на ягодицах, а молочные — в области груди. Зная о местах аккумулирования тех или иных видов жира, можно с лёгкостью корректировать свою диету, наращивая или уменьшая проблемные места своего тела.

Британские учёные сообщают, что продолжают работать над классификацией жиров, чтобы любой желающий исключительно за счёт коррекции питания мог, например, нарастить губы и одновременно сделать тоньше шею. Учёные уже проверяют свои открытия на животных.

Возможные характеристики Quadro M6000 на базе GM200: 3072 ядер CUDA, 12 Гбайт VRAM

NVIDIA может так и не впустить потоковые ускорители Tesla на базе GM200 или любого другого чипа Maxwell (переход будет совершён сразу на архитектуру Pascal). Но, похоже, обновлённая линейка Quadro вскоре будет представлена. По крайней мере, появилась информация о характеристиках видеокарты Quadro M6000, которая заменит Quadro K6000 и будет основана на чипе NVIDIA Maxwell GM200.

Стоит отметить, что архитектура Maxwell уже давно проложила путь в линейку Quadro, но речь шла о простых ускорителях на базе GM107 (первое поколение Maxwell). Грядущие же карты будут использовать высокопроизводительные чипы GM200 и GM204. Сведения о характеристиках флагманского ускорителя Quadro стали известны благодаря отчётам утилиты GPU-Z.

Карта, о которой идёт речь, проходит под идентификатором 10DE – 17F0. Учитывая, что текущие ускорители Maxwell тоже имеют в идентификаторе 17F0, речь может действительно идти о флагманском чипе GM200. Итак, характеристики ускорителя Quadro M6000 включают 3072 потоковых процессоров против 2048 в современном чипе GM204. Учитывая тот факт, что один вычислительный блок SMM в архитектуре Maxwell включает 128 потоковых процессоров, речь идёт о 24 блоках SMM. Кроме того, ускоритель включает 96 блоков растровых операций и 192/256 текстурных блоков.

Пиксельная скорость заполнения достигает 94,8 гигапикселей/с, а текстурная — 252,9 гигатекстелей/с. Рабочая частота GPU составляет 988 МГц (Boost-частота не сообщается). Ускоритель вряд ли получит менее 12 Гбайт видеопамяти GDDR5, ведь он приходит на смену K6000, который оснащается таким объёмом буфера. Интерфейс памяти останется 384-битным, а частота будет повышена до 6,6 ГГц (это даёт до 317,4 Гбайт/с).

Характеристики выглядят весьма впечатляюще, однако сложно сказать, идёт ли речь о полноценном чипе GM200 или же о его урезанном в целях экономии варианте. Учитывая тот факт, что Quadro K6000 основана на полноценном чипе GK110, есть основания ожидать того же и от Quadro M6000. Версия ускорителя GeForce на базе GM200 наверняка получит меньше памяти, более высокую частоту и оптимизации для игр.

NVIDIA представила «двуглавого монстра» Tesla K80

Компания NVIDIA официально представила свой ускоритель Tesla K80, который она гордо называет «самым высокопроизводительным в мире». Новинка с двумя мощными видеочипами GK210 нацелена на использование в самых разнообразных приложениях, включая машинное обучение, анализ данных, научные исследования и расчеты, HPC-приложения.

NVIDIA

NVIDIA

Новый ускоритель является флагманом линейки Tesla Accelerated Computing. Как и другие представители данной платформы, устройство поддерживает технологию CUDA. По сравнению с предшественницей, моделью Tesla K40, новинка отличается примерно в 1,75 раза более высокой производительностью и почти удвоенной пропускной способностью памяти. При этом по скорости вычислений K80 в десять раз превосходит самый быстрый современный CPU, утверждает NVIDIA.

NVIDIA

NVIDIA

Среди технических особенностей «двуглавого монстра» можно выделить 24 Гбайт GDDR5-памяти (по 12 Гбайт на один GPU), пропускную способность памяти 480 Гбайт/с, 4992 CUDA-ядер, поддержку NVIDIA GPU Boost.

Новинка уже отгружается заказчикам, среди которых присутствуют ASUS, Cray, Dell, GIGABYTE, HP, Supermicro, Tyan и многие другие.

window-new
Soft
Hard
Тренды 🔥
Shadow Warrior 3 выйдет в этом году, точную дату назовут в августе 6 мин.
Разработчик Ghost of Tsushima объяснил, почему обновление игры до версии для PS5 сделали платным 24 мин.
В EGS раздаются Mothergunship и Train Sim World 2, на очереди — A Plague Tale и Speed Brawl 38 мин.
Количество пользователей Huawei HarmonyOS по всему миру достигло 40 млн 2 ч.
Симулятор птички-скейтера SkateBIRD задержится на месяц, чтобы выйти одновременно на всех целевых платформах 2 ч.
Разработчики кошачьего приключения Stray показали новый геймплей и объявили о переносе игры на 2022 год 3 ч.
Приключенческий экшен-платформер Solar Ash от создателей Hyper Light Drifter получил дату релиза 3 ч.
Интерактивная поэма A Memoir Blue расскажет о всепоглощающей любви матери и дочери 3 ч.
Книжная головоломка-долгострой Storyteller выйдет на PC и Switch уже «скоро» 3 ч.
К Outer Wilds действительно выпустят дополнение Echoes of the Eye, а Switch-версия выйдет позже обещанного 3 ч.