Теги → gpgpu
Быстрый переход

AMD и Valve объявили о сотрудничестве в деле продвижения TrueAudio Next

На момент анонса технология аппаратных расчётов объёмного звука AMD TrueAudio казалась весьма перспективной и заманчивой для будущих игр. Однако прошедшие годы показали, что не всё так радужно: её поддержка ограничилась лишь относительно небольшим количеством проектов (самый известный, пожалуй, — Thief), а в последнее время о ней ничего не было слышно.

Но AMD не отказалась от идеи ускорения звуковых эффектов. С запуском 400-й серии видеокарт Radeon была представлена технология TrueAudio Next (TAN), в которой вместо аппаратного блока DSP обработка звука перекладывается на шейдерные ALU графического процессора. Новая технология была построена поверх движка AMD Radeon Rays на основе метода бросания лучей (ray-casting).

С одной стороны, TrueAudio стала потреблять некоторую часть вычислительных ресурсов GPU, но с другой получила бо́льшую гибкость и была оптимизирована для виртуальной реальности. Чуть позже AMD пошла ещё дальше и сделала TrueAudio Next открытой бесплатной технологией, добавив её исходный код в репозиторий GPUOpen.

Но даже после этого об аппаратном ускорении звука по технологии AMD мы почти ничего не слышали. Оказывается, компания не сидела сложа руки и не оставила идею, призванную сделать звуки в играх гораздо более реалистичными и соответствующими физическим законам распространения волн в пространстве: недавно AMD и Valve объявили о совместной работе по поддержке технологий AMD TrueAudio Next в рамках Steam Audio. Выпущена 13-я бета-версия Steam Audio 2.0, в которую добавлена поддержка TAN.

Поддержка аппаратного ускорения TAN со стороны лидирующей на ПК платформы цифровой дистрибуции Steam — это большой шаг вперёд, за которым может последовать появление заметного количества игр, использующих сцены повышенной акустической сложности и детализации, в том числе в виртуальной реальности.

AMD напоминает, что TAN отличается двумя важными возможностями. Первая — это Resource Reservation, которая позволяет разработчикам выделить определённую часть блоков GPU (например, 20 или 25 вычислительных модулей) исключительно для звуковых расчётов, чтобы избежать возможных проблем или задержек. Также функция резервирования ресурсов может включаться и отключаться автоматически, в зависимости от сцены.

Вторая называется GPU Compute Convolution Algorithms. Эти алгоритмы позволяют разработчикам повысить реалистичность в VR-приложениях, увеличив сложность звука и детализацию с помощью сверхточной реверберации (convolution reverb). Она помогает моделировать акустические эффекты под широким набором углов, создавая более глубокое чувство присутствия, и может в перспективе стать обязательным элементом для полноценного погружения в виртуальную реальность.

TAN даёт возможность наращивать количество источников звука, использовать непрямые звуки, модулировать импульсные характеристики объектов (Impulse Response) и так далее. При этом за счёт аппаратного ускорения высвобождаются ресурсы CPU для других задач вроде расчётов физики, искусственного интеллекта персонажей или обеспечения бесперебойной нагрузки конвейера GPU. AMD также утверждает, что TrueAudio Next снижает или даже полностью устраняет нежелательные щелчки, треск и сбои аудио.

Valve назвала две основные причины, которые подвигли её поддержать TrueAudio Next в Steam Audio:

  • TAN даёт разработчикам больше гибкости в распределении рабочей нагрузки обработки звука на ПК пользователя. Создатели игр могут выбирать, как процессор и графический ускоритель будут взаимодействовать, чтобы обеспечить впечатляющий звук;
  • разработчики получают возможность использовать дополнительный уровень детализации звука на достаточно мощных ПК, не меняя при этом контент. С помощью Steam Audio они могут просто задать более высокие настройки, которые будут использоваться, если на ПК пользователя установлен GPU с поддержкой TAN. Разработчикам не нужно повторно создавать какие-либо материалы.

Поддержка TAN не ограничивается лишь приложениями, которые используют напрямую Steam Audio C API. Отныне разработчики любого проекта на движке Unity с дополнением Steam Audio могут добавить соответствующие настройки, в том числе резервирования блоков GPU — в отсутствие аппаратного ускорения задачи звуковых расчётов будут автоматически переданы CPU и установлены на стандартные значения. TAN также поддерживается в дополнении Steam Audio FMOD Studio для Unity.

Выпущено и дополнение к другому популярному игровому движку, от компании Epic Games — для использования TAN в Unreal Engine 4 нужно просто соответствующим образом настроить дополнение Steam Audio. Более подробной информацией для разработчиков Valve поделилась в своём блоге.

В настоящее время TrueAudio Next работает на ускорителях Radeon RX 470, RX 480, RX 570, RX 580, R9 Fury, R9 Fury X, Pro Duo, RX Vega 56 и RX Vega 64. Также среди системных требований указано наличие драйвера AMD Radeon Software Crimson 16.7.3 или более позднего, ОС Microsoft Windows 7, 8.1 или 10. Учитывая, что речь идёт об открытом стандарте, не исключено, что в перспективе NVIDIA может реализовать его поддержку видеокартами GeForce, если TAN станет достаточно популярным.

NVIDIA начала выпускать драйверы GeForce с защитой от уязвимости Spectre

Как выяснилось, проблема уязвимостей, связанных со спекулятивным исполнением команд, затрагивает не только центральные, но и косвенно — графические процессоры. Ускорители NVIDIA не имеют алгоритма предсказания ветвлений, но драйверы исполняются на CPU и, соответственно, тоже подвержены атакам, которые были выявлены специалистами по безопасности в прошлом году, а на днях стали известны публике и, как следствие, злоумышленникам.

Итак, напомним: имеется три основных варианта уязвимостей. CVE-2017-5754, для удобства названная Meltdown, затрагивает наиболее фундаментальное разделение между пользовательскими процессами и ядром операционной системы. Она относительно проста в применении, но и успешно закрывается заплатками. NVIDIA сообщает, что её GPU-драйвер не подвержен этой уязвимости.

С «призрачной» и более сложной в применении Spectre всё сложнее: на данный момент надёжного способа полностью защититься от неё нет. Но производители выпускают обновления, уменьшающие вероятность успешной атаки. Согласно анализу специалистов NVIDIA, её драйверы могут быть потенциально подвержены варианту Spectre CVE-2017-5715, но пока исправлений нет — компания работает над проблемой с другими партнёрами из экосистемы.

А вот для варианта Spectre CVE-2017-5753 производитель ускорителей GeForce уже начал вносить в свои драйверы первые коррективы (в будущем обещаны и другие, более надёжные). Для Windows-систем выпущен драйвер 390.65: для продуктов серий Quadro, NVS — GeForce и Tesla начнут получать аналогичные драйверы в ближайшие дни. Для Linux компания уже представила драйверы 390.12 и 384.111: для ускорителей GeForce, Quadro, NVS — Tesla получат исправленные драйверы в ближайшее время.

Стоит отметить, что заплатки могут повлиять на исполнение вычислительных инструкций CPU за такт и несколько снизить эффективность работы драйвера. Но насколько это отразится на реальной производительности видеокарт в играх или приложениях, активно использующих преимущества GPGPU, ещё предстоит выяснить. Вполне возможно, ощутимых «проседаний» не будет.

Adobe с NVIDIA работает над реалистичной 3D-симуляцией масляной живописи

Художники используют планшеты для создания рисунков уже много лет, а благодаря распространению шлемов виртуальной реальности и ПО вроде Google Tilt Brush получили возможность рисовать и в 3D-пространстве. Хотя с помощью обоих методов можно создать прекрасные картины, оба они не могут обеспечить ощущения работы с настоящей кистью и холстом.

Существуют приложения, имитирующие живопись маслом (например, Corel Painter), но проект Wetbrush команды Adobe Research замахнулся на большее. NVIDIA, которая вместе с Adobe разрабатывает ПО, описывает проект как первую в мире симуляцию в реальном времени 3D-базированной системы рисования со взаимодействием на уровне отдельных ворсинок кисти. Приложение позволяет рисовать на 2D-поверхностях, создавая виртуальную 3D-картину.

Разработчики Project Wetbrush постарались сделать так, чтобы рисунок имел толщину, вязкость и другие параметры настоящей масляной живописи. С помощью цифрового пера художник наносит мазки на виртуальный холст, как в существующих 2D-приложениях, а программное обеспечение Adobe Research в реальном времени проводит симуляцию поведения масляной краски, оставляя текстуры, наращивая толщину нанесённой краски и создавая впечатление реального холста. Симуляция учитывает скорость мазков, наклон кисти и даже время.

К сожалению, для работы столь точной симуляции требуется графический ускоритель высокого класса. Мощная игровая система — недешёвая замена обычному недорогому холсту и масляным краскам, но зато цифровой редактор позволяет сэкономить время и существенно упростить процесс подбора нужных цветов.

Apple A9X под микроскопом: два ядра ARMv8, огромный GPU и 128-битный контроллер памяти

Высокоинтегрированная система на кристалле (system-on-chip, SoC) Apple A9X для планшета iPad Pro, по данным разработчика, может предложить производительность, сравнимую с тем, что предлагают процессоры Intel. Apple не раскрывает большого количества подробностей о своей самой мощной SoC, однако снимки ядра A9X, сделанные компанией Chipworks при помощи растрового электронного микроскопа (РЭМ, англ. scanning electron microscope, SEM), приоткрывают некоторые подробности об устройстве.

Apple A9X: гигантская SoC для большого планшета

Согласно измерениям Chipworks, микросхема Apple A9X огромна по меркам процессоров для мобильных устройств. Площадь A9X cоставляет 147 мм², она на 40 % больше, чем площадь Apple A9, выпускаемой по технологическому процессу CLN16FF компанией Taiwan Semiconductor Manufacturing Co. Для сравнения: четырёхъядерный Intel Skylake с графическим процессором класса GT2 имеет площадь ядра в 122 мм², а двухъядерный Intel Haswell с графическим ядром GT3 имеет размер в 177 мм². Типично системы на кристалле для мобильных устройств имеют площадь существенно меньше 100 мм².

Apple A9X

Apple A9X

Как видно, Apple не стала экономить на микросхеме для своего самого мощного планшета. Однако, в отличие от некоторых современных мобильных SoC, в Apple A9X нет десятка ядер общего назначения или огромных кешей, призванных увеличить производительность в однопоточных приложениях. Вместо этого, судя по всему, Apple планирует положиться на гетерогенные вычисления.

Всего два ядра общего назначения

Apple A9X экипирован двумя ARMv8-A-совместимыми ядрами общего назначения Twister, в разработке которых принимал участие легендарный Джим Келлер (Jim Keller). Микропроцессорные ядра (отмечены зелёным на схеме) имеют общий кеш второго уровня объёмом 3 Мбайт и могут работать на тактовой частоте до 2,26 ГГц.

Принимая во внимание, что все 64-разрядные микроархитектуры Apple типично умели декодировать и одновременно исполнять больше ARMv8-инструкций, чем ядра, разработанные ARM, наличие всего двух ядер общего назначения не должно казаться недостатком. К сожалению, достоверных данных об архитектуре Twister нет, и сложно сказать, как производительность пары новых ядер Apple соотносится с конкурирующими изделиями. Тем не менее, высокая тактовая частота и, предположительно, очень эффективная архитектура позволят микросхеме демонстрировать отличный уровень производительности в большинстве приложений.

Мощный GPU и гетерогенные вычисления

Вместо того, чтобы интегрировать большое количество ядер общего назначения, Apple встроила в A9X очень мощный графический процессор. GPU базируется на архитектуре Imagination Technologies PowerVR Series7XT и имеет двенадцать кластеров (отмечены синим на схеме), организованные как шесть блоков с некоторой общей логикой. Данная архитектура не только очень эффективна для обработки графики, но и поддерживает возможности таких интерфейсов программирования приложений, как OpenGL 4.3, OpenCL 1.2 и даже DirectX 11.2 (неактуально для Apple и скорее всего не реализовано на аппаратном уровне).

Графический процессор PowerVR Series7XT

Графический процессор PowerVR Series7XT

Примечательно, что официально Imagination предлагает решения PowerVR Series7XT с восемью или шестнадцатью кластерами, однако Apple приняла решение использовать конфигурацию из двенадцати кластеров (Imagination называет кластерами блоки unified shading cluster, USC, c 64–128 потоковыми процессорами в каждом). Иными словами, разработчики Apple самостоятельно построили графический процессор на базе архитектуры PowerVR Series7XT, что случалось и раньше, позволяя продуктам Apple иметь лучшую производительность по сравнению с конкурентами в приложениях, требующих вычислительной мощность GPU.

Вычислительный кластер PowerVR Series7XT

Вычислительный кластер PowerVR Series7XT

Судя по всему, инженеры Apple максимизировали количество потоковых графических процессоров у GPU чипа Apple A9X ради того, чтобы увеличить вычислительные способности системы на кристалле. По-видимому, Apple планирует использовать технологии GPU-ускорения для приложений, которые требуют серьёзной математической мощности. Принимая во внимание очень высокую эффективность параллельных расчётов на графических процессорах, подобный подход имеет смысл. При должной оптимизации программного обеспечения дополнительные GPU-кластеры внутри SoC обеспечат бóльшую производительность, чем дополнительное ядро общего назначения.

Новая подсистема памяти и отсутствие L3

Процессор Apple A9X — первая микросхема компании с восьмиканальным контроллером памяти LPDDR4 (восемь характерных 16-битных интерфейсов заметны внизу и по бокам SoC). Благодаря 128-разрядному доступу к памяти и её тактовой частоте в 3200 МГц, пропускная способность подсистемы памяти A9X составляет 51,2 Гбайт/с, что вдвое больше, чем у других микросхем Apple. Учитывая мощный GPU и высокое разрешение у экрана Apple iPad Pro (2732 × 2048 точек), высокая пропускная способность памяти крайне важна для описываемой системы на кристалле.

Apple iPad Pro

Apple iPad Pro

Примечательно, что в отличие от A9 и предшественников (A7, A8, A8X), A9X не имеет кеша третьего уровня для ядер общего назначения и GPU. Решение отказаться от кеша можно объяснить возросшей пропускной способностью подсистемы памяти, а также тем фактом, что Apple хотела бы использовать в первую очередь GPU-ускорение для требовательных приложений. Учитывая скромные размеры кеша третьего уровня, едва ли Apple смогла сэкономить существенные деньги на производстве микросхемы, отказавшись от него в A9X. Кроме того, большие кеши зачастую дают возможность экономить электроэнергию, минимизировав использование оперативной памяти. Таким образом, отказ от L3 — весьма спорное решение проектировщиков SoC.

Помимо мощных CPU, GPU и полностью перепроектированной подсистемы памяти, процессоры Apple A9X включает в себя множество специализированных блоков, производительность которых серьёзно влияет на общую работу устройства. Во-первых, Apple A9X имеет полностью новый контроллер NAND флеш-памяти, что увеличит производительность встроенного накопителя данных. Во-вторых, SoC имеет полностью переработанный контроллер дисплея, позволяя последнему работать с переменной частотой обновления. В-третьих, новый чип имеет новые контроллеры сенсоров и целый набор специфических ускорителей. К сожалению, определить всё вышеперечисленное на фото подобного качества не представляется возможным. Тем не менее, подобные «мелочи» занимают существенную — не менее четверти — площадь ядра A9X.

Взгляд в будущее

Судя по архитектурным решениям в A9X, вероятно, Apple планирует полагаться на гетерогенные вычисления не только для профессионального ПО, которое будет запускаться на iPad Pro, но и для типичных приложений. По-видимому, в будущем мы увидим дальнейшее увеличение количества GPU-кластеров во всех SoC компании при неизменном количестве ядер общего назначения в ближайшие годы. Во всяком случае, до перехода на 10-нм технологический процесс в конце 2017 года микросхемы Apple продолжат включать в себя два ядра, но мощные современные GPU.

Apple iPad и iPhone

Apple iPad и iPhone

Что касается 128-битного доступа к памяти, то он, вероятно, останется эксклюзивной возможностью A9X или A10X. Интерфейсы памяти требуют места на микросхемах и в случае с чипами для смартфонов «широкий» доступ к LPDDR4 невозможно обеспечить физически. Как следствие, можно ожидать, что будущие SoC компании продолжат использовать кеш третьего уровня для максимизации пропускной способности памяти, если только Apple не решит применять технологии вроде Wide I/O.

Более ста суперкомпьютеров из Top 500 используют ускорители вычислений

Не секрет, что всё больше суперкомпьютеров используют вычислительные ускорители на базе графических процессоров, или же специальные сопроцессоры, чтобы достигнуть невиданной мощности при относительно небольшом энергопотреблении. Согласно данным из нового списка пятисот самых мощных суперкомпьютеров в мире, более сотни уже использует GPU-ускорители. Карты NVIDIA Tesla продолжают оставаться самыми популярными ускорителями для высокопроизводительных вычислений (high-performance computing, HPC).

Рост производительности суперкомпьютеров замедляется

Согласно обновлённому списку Top 500, опубликованному на этой неделе, общая вычислительная мощность всех самых мощных суперкомпьютеров в мире выросла до 420 квадриллионов операций с плавающей запятой в секунду (420 петафлопс – PetaFLOPS [floating point operations per second]) с 361 петафлопс год назад. 80 HPC-систем имеют производительность в один петафлопс, по сравнению с 67 машинами в июле этого года года. Наименее мощный суперкомпьютер из Top 500 может выполнять 204,3 триллионов операций в секунду (терафлопс), тогда как ранее мощность самой медленной Top 500 системы в мире была 164 терафлопс.

Суперкопьютер Cray XK7

Суперкопьютер Cray XK7

Авторы рейтинга Top 500 отмечают, что рост производительности самых быстрых суперкомпьютеров замедляется. Во многом это происходит вследствие замедления роста производительности центральных процессоров, а также некоторых задержек с выходом в свет новейших ускорителей и сопроцессоров для супервычислений.

Количество GPU в суперкомпьютерах растёт

В общей сложности 104 системы в списке пятисот самых мощных суперкомпьютеров в мире используют вычислительные ускорители AMD FirePro S, NVIDIA Tesla или сопроцессоры Intel Xeon Phi. А еще в июле этого года лишь 90 систем использовали подобные устройства. 66 систем из 104 использует NVIDIA Tesla, 27 используют Intel Xeon Phi и три используют AMD FirePro. Четыре системы используют комбинацию из NVIDIA Tesla и Intel Xeon Phi. NVIDIA продолжает доминировать на рынке суперкомпьютерных ускорителей, однако успех Intel Xeon Phi налицо. Примечательно, что, по данным NVIDIA, 23 из 24 новых GPU-ускоренных систем в списке построенным на базе Tesla.

NVIDIA Tesla K80

NVIDIA Tesla K80

«Я верю, что в один прекрасный день GPU-ускорение будет доступно у всех суперкомпьютеров мира», — сказал Дженсен Хуанг (Jen-Hsun Huang), соучредитель и генеральный директор NVIDIA. «К GPU-ускоряемым вычислениям уже обратились ведущие суперкомпьютерные центры мира, что нашло отражение в актуальной версии списка TOP500. Учитывая, что темп научных открытий растет и ученые все чаще обращаются к вычислениям, машинному обучению и визуализации, в будущем эта тенденция только усилится». 

Intel Xeon Phi в составе Tianhe 2

Intel Xeon Phi в составе Tianhe 2

Согласно данным последнего исследования компании Intersect360 Research, почти 70 % из 50 самых популярных HPC-приложений — и 90% из 10 ведущих — поддерживают GPU-ускоренные вычисления. Таким образом, всё указывает на то, что доля графических процессоров в суперкомпьютерах продолжит расти в ближайшие годы.

«Ландшафт индустрии HPC сегодня серьезно изменился, и произошло это благодаря графическим процессорам NVIDIA Tesla», — отметил Эддисон Снелл (Addison Snell), один из авторов исследования, генеральный директор Intersect360 Research. «Применение ускорителей и число GPU-ускоренных версий ведущих HPC кодов неуклонно растет».

Tianhe 2 остаётся самым мощным суперкомпьютером

В верхней части нового списка из пятисот самых мощных суперкомпьютеров в мире, который был выпущен на этой неделе, не произошло существенных изменений.

Самым мощным суперкомпьютером на планете по-прежнему является китайский Tianhe 2, спроектированный оборонным научно-техническим университетом народно-освободительной армии Китайской Народной Республики и компанией Inspur. Он способен выполнять 33,86 квадриллионов операций с плавающей запятой в секунду (33,86 петафлопс). Данная система базируется на процессорах Intel Xeon E5-2692v2 (двенадцать ядер, тактовая частота 2,2 ГГц), а также использует 48 тысяч сопроцессоров Xeon Phi Intel 31S1P. В общей сложности, Tianhe 2 располагает 3,12 миллионами x86-ядер.

Tianhe 2

Суперкомпьютер Tianhe 2

На втором месте находится суперкомпьютер Titan, который установлен в национальной лаборатории Ок-Ридж (Oak Ridge) министерства энергетики США, и обладает мощностью 17,59 петафлопс. Данная система представляет собой кластер Cray XK7 c шестнадцатиядерными AMD Opteron и ускорителями NVIDIA Tesla K20X.

Третья по мощности HPC-система в мире — Sequoia — может выполнять 17,173 квадриллионов операций с плавающей запятой в секунду и принадлежит Ливерморской национальной лаборатории министерства энергетики США имени Э. Лоуренса (Lawrence Livermore National Laboratory, LLNL). Система использует 98 304 процессора IBM Power BQC (шестнадцать ядер, частота 1,60 ГГц) и была построена IBM.

Суперкомпьютер Ломоносов 2

Суперкомпьютер Ломоносов 2

Самым мощным суперкомпьютером в России остался Ломоносов 2, который имеет мощность 1,849 петафлопс (36 место в рейтинге). Данная система была построена компанией T-Platforms для МГУ имени М.В. Ломоносова на базе процессоров Intel Xeon E5-2697v3 (14 ядер, 2,60 ГГц) и ускорителей NVIDIA Tesla K40m.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

Специальный адаптер включит видеоускоритель в Mac Mini

Несмотря на свои скромные габариты, серия устройств Apple Mac Mini представляет собой полноценные бюджетные ПК. Однако некоторые пользователи предпочитают использовать их в другом качестве, к примеру, как мультимедийный сервер. Но в этом случае перестаёт работать графическое ядро, отвечающее не только за вывод информации на монитор, но и для ускорения ряда других операций.

Проблему может решить адаптер NewerTech HDMI Headless Video Accelerator. Он очень похож с виду на обычный USB-брелок, но имеет разъём HDMI. При подключении его в соответствующий порт на корпусе Mac Mini система распознает адаптер как подключённый монитор, загружает соответствующий драйвер и активирует графическое ядро.

Поддерживаются модели Mac Mini 2010 (v4.1), 2011 (v5.1/5.2/5.3), 2012 (v6.1/6.2) и 2014 (v7.1) годов выпуска. Для правильного функционирования адаптера требуется установленная операционная система OS X версии не ниже 10.6.8. Данное решение позволяет использовать без монитора программное обеспечение, рассчитанное на ускорение OpenCL и прочие решения класса GPGPU, а также сделает более комфортной работу в случае использования удалённого доступа к рабочему столу. Стоит адаптер NewerTech $39, что довольно немало для достаточно простого устройства.

Новая статья: Intel iStep 2015: новые средства разработки

Данные берутся из публикации Intel iStep 2015: новые средства разработки

Стартап под российским руководством использует GP-GPU для продления жизни и поиска лекарств от рака

На конференции GTC (GPU Technology Conference), которую NVIDIA проводит в Сан-Хосе (Калифорния), представлены компании и отдельные исследователи, использующие GPU для ускорения вычислений.

Один из проектов под названием Insilico Medicine основан бывшим сотрудником российского офиса ATI Александром Жаворонковым. Всего команда состоит из 33 человек, многие из которых имеют научные степени по медицине. Цель этого начинания — при помощи анализа больших объёмов данных найти новые способы лечения онкологических заболеваний и продлить срок человеческой жизни.

Insilico Medicine при помощи GPU анализируют данные об эспрессии генов в образцах тканей, собранных у множества пациентов, и сопоставляют их с данными о применяемых в этих случаях медицинских препаратах.

Доктор Qingsong Zhu – второе лицо в Insilico Medicine

Доктор Qingsong Zhu – второе лицо в Insilico Medicine

Хотя Insilico Medicine не имеет такого многомиллионного финансирования, как, например, проект Calico от Google, а сам Александр и два других руководителя не получают зарплату, стартап уже может похвастаться впечатляющими достижениями. Участники проекта уже опубликовали 17 научных работ и начали сотрудничество с крупными фармацевтическими компаниями. На GTC Александр Жаворонков представил четыре завершенных продукта. OncoFinder — решение для поиска лекарств от рака и подбора персонализированного лечения, которое уже внедрено в клиническую практику. GeroScope выявляет, какие из уже известных препаратов могут быть перепрофилированы для продления жизни и борьбы со старением. Также были разработаны PharmAtlas — база данных по медикаментам, и Pathway Cloud Intelligence — собственно система анализа данных, которыми оперируют исследователи Insilico Medicine.

NVIDIA TITAN X: что он даст науке?

С официальным анонсом графического монстра NVIDIA TITAN X стали известны его подробные технические характеристики, а в нашей лаборатории этот ускоритель даже успел пройти тщательное тестирование. В целом, что полезного может дать новинка компьютерному энтузиасту, примерно понятно. Но NVIDIA разрабатывала свой флагманский ускоритель не только с прицелом на любителей игр.

NVIDIA

NVIDIA

Одной из сфер применения TITAN X является так называемое глубокое (или глубинное) обучение, которое интенсивно используется в нейронных сетях и системах машинного обучения. Эта сфера предъявляет особые требования к вычислительным возможностям оборудования, и мощь TITAN X здесь как раз очень пригодится. Как отмечает NVIDIA, её новый ускоритель поможет продвинуться в передовых медицинских и фармацевтических исследованиях, а также в сфере создания полностью автономных самоуправляемых автомобилей.

NVIDIA

NVIDIA

В ходе мероприятия GPU Technology Conference руководитель компании Джен-Сан Хуанг выделил три технологии, которые помогут продвинуть глубокое обучение на новый уровень, — GTX TITAN X, обучающая система DIGITS Deep Learning GPU (приложение, которое облегчит исследователям процесс создания качественных нейронных сетей), DIGITS DevBox (самая быстрая, как утверждается, в мире настольная система для глубокого обучения, включающая четыре GPU TITAN X).

В модели промышленного стандарта AlexNet ускоритель TITAN X обеспечил её обучение с использованием базы с 1,2 млн изображений менее чем за три дня. Для сравнения, системе с 16-ядерным процессором Xeon для этого потребовалось более 40 дней. А вот DIGITS DevBox и вовсе справился с задачей всего за 13 часов!

В бета-программе Mantle от AMD зарегистрировались почти 100 команд разработчиков

Графический API Mantle, как известно, позволяет на системах со слабыми CPU обеспечить существенный прирост производительности за счёт низкоуровневого доступа к оборудованию и меньшей зависимости от драйвера, даёт разработчикам возможность без лишних трудностей переносить консольные оптимизации на ПК, а также предоставляет доступ к последним графическим технологиям. Пока Mantle является закрытым API и поддерживает только ускорители Radeon под ОС Windows, но в перспективе AMD планирует сделать технологию открытой и кроссплатформенной.

Так или иначе, но вместе с официальным анонсом драйвера Catalyst Omega AMD поделилась некоторыми своими достижениями в деле распространения API. Производитель ускорителей Radeon сообщил, что в настоящее время в бета-программе Mantle участвует уже почти 100 разработчиков ПК-игр. Публично сообщили о поддержке стандарта более 10 разработчиков. 4 игровых движка уже официально поддерживают Mantle: Frostbite 3, CryEngine, Nitrous, Asura (также стоит добавить недавний анонс о поддержке стандарта в движке Panta-Rhei).

Среди уже вышедших или выходящих в ближайшее время игр с поддержкой Mantle можно перечислить Battlefield 4, Battlefield: Hardline, Thief, Star Citizen, Sid Meier’s Civilization: Beyond Earth, Dragon Age: Inquisition, Sniper Elite 3. Всего же вышло или готовится к выходу свыше 20 проектов. Кроме того, недавно стало известно, что и следующие версии популярных тестовых пакетов PCMark и 3DMark от Futuremark также обзаведутся поддержкой Mantle наряду с DirectX 12.

Также AMD сообщила о новой версии открытой технологии симуляции волос TressFX Hair 3.0 (первую версию мы видели в перезапуске Tomb Raider), которая обзавелась поддержкой реалистичной визуализации шерсти и новыми возможностями рендеринга для оптимальной масштабируемости. Заинтересованные разработчики могут получить библиотеки, исходные коды для чтения и визуализации файлов в формате TressFX. Создавать и изменять файлы в таком формате можно при помощи дополнения к Maya.

Наконец, AMD активно поддерживает открытый стандарт вычислений общего назначения на GPU, APU и CPU — OpenCL. Компания в полной мере обеспечила поддержку стандарта OpenCL 2.0 и выпустила набор инструментов разработчика OpenCL 2.0 SDK.

NVIDIA Tesla K80 — подробности о самом мощном ускорителе

Вычислительные ускорители NVIDIA Tesla прочно заняли своё место везде, где требуется высокая вычислительная производительность: от биржевого анализа до научных расчётов. Ими комплектуются специальные серверы, на их базе строятся вычислительные суперкластеры. Секрет успеха NVIDIA в этой области — поддержка всех современных как закрытых (CUDA), так и открытых технологий (OpenCL, DirectCompute). И в одной из предыдущих новостей мы уже сообщали, что компания готовит к запуску новые модели ускорителей Tesla, как на базе новой архитектуры Maxwell, так и на основе проверенной временем архитектуры Kepler. Особняком в этом списке стояла модель Tesla K80, которая должна была стать вторым двухпроцессорным вычислительным ускорителем NVIDIA после устаревшего D870.

NVIDIA Tesla K80 не имеет вентилятора

NVIDIA Tesla K80 не имеет вентилятора

Так и случилось. Компания опубликовала официальный анонс Tesla K80, наиболее мощного ускорителя в серии на сегодняшний день. Как и ожидалось, он получил два процессора, но не GK110, как можно было предположить, а совершенно новые GK210, которые, впрочем, производятся с использованием того же 28-нанометрового техпроцесса TSMC. Двухпроцессорные графические карты — это всегда компромисс, и то же в полной мере относится и к вычислительным ускорителям. Если один процессор GK110 на борту Tesla K40 имеет 2880 активных поточных процессоров, то GK210 в конструкции Tesla K80 были несколько усечены в конфигурации и получили по 2496 процессоров на чип. Это позволило уложиться в 300-ваттный теплопакет и сделать систему охлаждения полностью пассивной, рассчитанной на продув силами вентиляторов, установленных в корпусе сервера. Их там, как правило, немало и они обеспечивают мощный воздушный поток, поскольку о тишине особенно заботиться не надо.

Самый быстрый ускоритель научных расчётов

Самый быстрый ускоритель научных расчётов

Не обошлось и без снижения тактовых частот: ядра Tesla K80 работают на частоте всего 562 МГц в базовом режиме и 875 МГц — в турборежиме. Но в данном случае количество бьёт качество: почти 5 тысяч поточных процессоров, а точнее, 4992, работая в турборежиме, легко выдают 2,91 терафлопса вычислительной мощности в режиме двойной точности. В обычном режиме этот показатель снижается до 1,87 терафлопс, что всё равно больше, чем может дать Tesla K40 в турборежиме (1,66 терафлопс). При этом карта имеет стандартную компоновку: один слот PCIe x16 и двойная высота, что незаменимо для компактных систем, от которых, тем не менее, требуется высокая вычислительная мощность. А в режиме одинарной точности вычислений показатели новичка выглядят ещё внушительнее: 8,74 и 5,6 терафлопс соответственно. Быстрая межпроцессорная шина NVLink позволяет избежать традиционных для NUMA-систем «бутылочных горлышек».

Быстрая межпроцессорная шина гарантирует отсутствие узких мест

Быстрая межпроцессорная шина гарантирует отсутствие узких мест

Не подкачала и подсистема памяти: на борту NVIDIA Tesla K80 установлено сразу 24 гигабайта быстрой памяти GDDR5, что является своеобразным рекордом: даже AMD FirePro W9100 располагает всего 16 гигабайтами. И это честные 24 гигабайта, ведь, в отличие от игровой технологии SLI, данные в памяти первого GPU не должны дублироваться в блоке памяти второго GPU. Надо ли объяснять, что объём памяти в массивных вычислениях играет далеко не последнюю роль? Не забыта и пропускная способность: совокупная производительность подсистемы памяти Tesla K80 достигает 480 Гбайт/с, по 240 Гбайт/с на каждый процессор. Это делает новинку идеальным решением практически для любой сферы, где необходимы массивные вычисления — от астрофизики, генетики и квантовой химии, до анализа больших массивов данных и систем «глубокого машинного обучения». Всего ускорители Tesla могут работать более чем с 280 приложениями и программными пакетами.

Преимущества GPGPU очевидны

Преимущества GPGPU очевидны

По утверждению NVIDIA, ускоритель Tesla K80 на порядок (в 10 раз) опережает самые лучшие традиционные процессоры в наиболее распространённых научных и инженерных программных пакетах, таких как GROMACS, AMBER, LSMS или Quantum Espresso. Если вспомнить о тепловых и электрических характеристиках, то оказывается, что K80 очень сильно превосходит обычные ЦП и в плане энергоэффективности: 18-ядерный Intel Xeon E5-2699v3 имеет теплопакет в районе 145 ватт, а NVIDIA Tesla K80, как уже упоминалось выше, — всего около 300 ватт, то есть как пара таких Xeon. При этом последний несравнимо быстрее. Итак, следует заключить, что идея GPGPU, то есть «вычислений на базе графических процессоров», отлично прижилась в современной науке, инженерии и экономике. Так считают и лучшие умы планеты.

Широкий спектр задач и высокая производительность. У традиционных ЦП нет шансов

Широкий спектр задач и высокая производительность. У традиционных ЦП нет шансов

В частности, Вольфганг Нейджел (Wolfgang Nagel), директор центра информационных услуг в Дрезденском Техническом Университете, говорит, что учёные используют ресурсы суперкомпьютера Taurus, построенного на базе GPU NVIDIA, для таких задач, как поиск и разработка методов лечения рака, изучения клеток в реальном времени и даже исследования астероидов в рамках прогремевшего недавно на весь мир проекта ESA «Rosetta». А появление новой мощной, но при этом компактной и экономичной модели ускорителя NVIDIA Tesla непременно приведёт к созданию ещё более мощных и эффективных суперкомпьютеров, от чего выиграет и наука, и человечество в целом. Поставки ускорителя NVIDIA Tesla K80 уже начались, подробнее с ним можно ознакомиться в соответствующем разделе веб-сайта NVIDIA, а для скептиков существует даже бесплатная возможность опробовать GPGPU в деле.

А между тем, технологии не стоят на месте, и очень интересно будет взглянуть на будущих монстров Tesla на базе GM200.

NVIDIA представила «двуглавого монстра» Tesla K80

Компания NVIDIA официально представила свой ускоритель Tesla K80, который она гордо называет «самым высокопроизводительным в мире». Новинка с двумя мощными видеочипами GK210 нацелена на использование в самых разнообразных приложениях, включая машинное обучение, анализ данных, научные исследования и расчеты, HPC-приложения.

NVIDIA

NVIDIA

Новый ускоритель является флагманом линейки Tesla Accelerated Computing. Как и другие представители данной платформы, устройство поддерживает технологию CUDA. По сравнению с предшественницей, моделью Tesla K40, новинка отличается примерно в 1,75 раза более высокой производительностью и почти удвоенной пропускной способностью памяти. При этом по скорости вычислений K80 в десять раз превосходит самый быстрый современный CPU, утверждает NVIDIA.

NVIDIA

NVIDIA

Среди технических особенностей «двуглавого монстра» можно выделить 24 Гбайт GDDR5-памяти (по 12 Гбайт на один GPU), пропускную способность памяти 480 Гбайт/с, 4992 CUDA-ядер, поддержку NVIDIA GPU Boost.

Новинка уже отгружается заказчикам, среди которых присутствуют ASUS, Cray, Dell, GIGABYTE, HP, Supermicro, Tyan и многие другие.

AMD выпустила специальное ПО для систем на базе APU

Компания Advanced Micro Devices активно рекламирует и продвигает в жизнь идею переноса ряда задач, традиционно нагружающих центральный процессор, на графическое ядро. Для своих процессоров, оснащённых интегрированной графикой Radeon, она даже придумала новое название — APU (Accelerated Processing Unit). Cмысл в этом есть, и немалый, поскольку современные графические процессоры давно превосходят по чистой вычислительной мощности обычные центральные, но загвоздка кроется в поддержке со стороны программного обеспечения. Точнее, в отсутствии массовой поддержки.

Для более наглядной демонстрации возможностей APU компания буквально на днях сделала доступным пакет программного обеспечения Elite Experiences. К сожалению, он предназначен пока только для мобильных систем, поскольку настольные системы, даже будучи оснащёнными процессорами Kaveri, часто не обладают нужной периферией, которая есть практически в любом ноутбуке — веб-камерой, микрофоном или адаптерами Wi-Fi/Bluetooth.

В список технологий, предлагаемых новым пакетом ПО, входят Face Login, Gesture Control, Quick Stream, Wireless Display и Perfect Picture. Их названия говорят сами за себя, например, Face Login позволяет осуществлять вход в систему по распознаванию лица пользователя, что уже довольно интересно — не все любят запоминать многочисленные пароли, а современные массовые сканеры отпечатков пальцев не слишком надёжны. Gesture Control впечатляет ещё сильнее: можно вспомнить проект Leap Motion, который для управления жестами требовал приобретения специального контроллера для шины USB 3.0, да ещё и изрядно загружал центральный процессор системы. Версия этой технологии, предлагаемая AMD, использует встроенную веб-камеру и вычислительные возможности графической части APU. Гораздо более элегантное решение, не требующее, к тому же, дополнительных денежных трат.

AMD Wireless Display и Quick Stream позволяют передавать звук в формате 5.1 и изображение с разрешением 1080p на любую телевизионную панель или проектор, поддерживающие технологию Miracast. Для минимизации задержек и более полного использования полосы пропускания используется прямое соединение по Wi-Fi, без участия маршрутизатора. Поддержка этой технологии встроена в Windows 8.1, достаточно заглянуть в раздел «Устройства» (Devices) и использовать опцию «добавить беспроводной дисплей» (Add a wireless display). Поддерживается проигрывание форматов, защищённых DRM. К этой же области относится и технология Perfect Picture, расширяющая возможности по воспроизведению видео высокого разрешения.

Неплохое начало, на наш взгляд. Остаётся надеяться, что инициатива AMD будет поддержана партнёрами компании как в области разработки аппаратного обеспечения, так и программных средств. А благодаря совместимости APU с современными стандартами GPGPU, такими как DirectCompute и OpenCL, к разработке могут подключиться и те, кто исторически привержен процессорам Intel и графическим решениям NVIDIA. Загрузить пакет AMD Elite Experiences можно с официального веб-сайта компании.

AMD и Adobe представили несколько новых GPU-оптимизаций для Photoshop CC

AMD сообщила о появлении в последней версии Adobe Photoshop CC новых оптимизаций, использующих мощности графики FirePro, Radeon и гибридах процессоров AMD посредством открытых стандартов OpenCL и OpenGL. Благодаря оптимизациям значительно увеличено быстродействие фильтра повышения резкости Smart Sharpen, окружения 3D-печати и преобразований вроде Perspective Warp.

Как ранее возможности OpenCL были использованы в Blur Gallery, так теперь Adobe Systems использовала стандарт для ускорения Smart Sharpen. Были ускорены все аспекты фильтра — параметры уровня, радиуса и подавления шумов, а также выбор алгоритма. Сообщается, что ускорение на некоторых системах может достигать 11 раз по сравнению с версией без OpenCL.

Также при помощи OpenGL в Photoshop CC улучшены следующие инструменты:

  • Perspective Warp — отклик на действия пользователя при искажениях перспективы происходит практически мгновенно;
  • 3D-печать — производительность новых инструментов 3D-печати в Photoshop стала принципиально боле высокой: модели стали качественнее и точнее, появился предварительный WYSIWYG-просмотр и так далее.

AMD не первый раз помогает ускорить производительность Photoshop с помощью открытых стандартов — в настоящее время в популярном графическом редакторе реализованы десятки инструментов, использующих вычислительные возможности графики наряду с CPU.

window-new
Soft
Hard
Тренды 🔥