Суперкомпьютер Aurora на базе процессоров Intel не смог обогнать суперкомпьютер Frontier на базе чипов AMD в свежем рейтинге самых быстрых суперкомпьютеров в мире Top500, заняв в нём второе место. Однако Aurora вырвался в лидеры в бенчмарке HPL-MxP, предназначенном для оценки ИИ-производительности. Таким образом, Aurora является самым быстрым ИИ-суперкомпьютером в мире с производительностью 10,6 AI Эфлопс.
Суперкомпьютер Aurora по-прежнему не может работать в полную силу. Сообщается, что машина сталкивается с различными проблемами в работе комплектующих, системы охлаждения, рабочими ошибками и нестабильностью сетевой инфраструктуры. Aurora был анонсирован девять лет назад. В первой итерации систему так и не собрали. Вторая версия суперкомпьютера была анонсирована пять лет назад, а последние компоненты машины были установлены лишь 11 месяцев назад.
Суперкомпьютер Aurora разделён на 10 624 кластеров, в которых совокупно содержатся 21 248 центральных и 63 744 графических процессоров. Согласно последним данным, Аргоннская национальная лаборатория (ANL), в которой установлен этот суперкомпьютер, снова не смогла оценить весь потенциал его производительности в тесте Linpack, на результатах которого составляется рейтинг самых мощных суперкомпьютеров в мире Top500.
При работе 87 % компонентов Aurora (9234 активных кластеров из 10 624 имеющихся) Aurora продемонстрировал производительность на уровне 1,012 Эфлопс, преодолев экзафлопсный барьер быстродействия. Это закрепило его на втором месте в списке Top500. Первое участие Aurora в рейтинге производительности состоялось шесть месяцев назад. Тогда у суперкомпьютера работала лишь половина из имеющихся вычислительных блоков, что позволило ему продемонстрировать результат в 585,34 Пфлопс.
Предполагается, что при полной мощности Aurora будет быстрее Frontier в вычислительном тесте производительности Linpack. Однако суперкомпьютеру ещё требуется дополнительная настройка для соответствия заявленным характеристикам. В настоящий момент Frontier с результатом 1,206 Эфлопс примерно на 19 % быстрее Aurora. Однако, как пишет Tom’s Hardware, с учётом линейной масштабируемости Aurora по-прежнему не смог бы выиграть у Frontier даже после задействования его неиспользовавшихся 13 % вычислительных блоков.
Intel широко расхваливала теоретическую пиковую производительность Aurora на уровне 2 Эфлопс (Rpeak), но производительность суперкомпьютеров измеряются показателем устойчивой производительности (Rmax). Frontier обеспечивает 70 % от своей пикового быстродействия в виде устойчивой производительности в Linpack, тогда как у Aurora показатель устойчивой производительности составляет 51 % от пиковой. Возможно, в будущем после всех необходимых доработок ситуация изменится в лучшую сторону. В Аргоннской национальной лаборатории надеются, что это рано или поздно произойдёт. Там отмечают, что для Aurora заявлен контрактный целевой показатель производительности, который выше, чем у Frontier.
И всё же Aurora удалось обогнать всех конкурентов в тесте ИИ-производительности HPL-MxP со смешанной точностью, где он продемонстрировал результат 10,6 Эфлопс при использовании 89 % своих вычислительных блоков. В этом тесте предпочтение отдаётся вычислениям более низкой точности (FP32 и FP16), чем в Linpack (FP64). Считается, что HPL-MxP лучше отражает производительность в реальных рабочих нагрузках ИИ и растущем числе других приложений, связанных с этой средой. В свою очередь FP64 в значительной степени отражает производительность систем, связанных с научными вычислениями.
Однако лидерство Aurora в HPL-MxP может быть подорвано уже в ближайшее время. На горизонте маячит суперкомпьютер Alps Швейцарского национального компьютерного центра (CSCS) на базе суперчипов Nvidia Grace Hopper. Данная система пока не участвовала в рейтинге, однако для неё заявляется ИИ-производительность на уровне 20 Эфлопс. Ожидается, все 10 752 суперчипа Grace Hopper будут установлены на неё к концу июня текущего года.
В тесте HPCG (High Performance Conjugate Gradients), также более репрезентативном для приложений с реальными рабочими нагрузками, чем Linpack, суперкомпьютер Aurora тоже продемонстрировал впечатляющую эффективность. С учётом работы всего 38,5 % от общего числа вычислительных блоков он занял третье место в данном тесте. В бенчмарке Graph500, предназначенном для оценки производительности систем в работе с большими наборами данных, Aurora занял пятое место. Правда, здесь ANL не указала, какой объём системы использовался для этого теста.
Aurora не попал в список самых энергоэффективных суперкомпьютеров Green500, и это совсем неудивительно. Его пиковое энергопотребление составляет до 60 МВт, что вдвое больше энергопотребления Frontier (29 МВт).
С момента установки последних блоков оборудования, входящих в состав Aurora, прошло 10 месяцев. Однако система до сих пор не заработала в полную силу. За прояснением ситуации Tom’s Hardware обратился в Intel.
«Поскольку мы завершили поставку последнего вычислительного узла в конце июня 2023 года (10 месяцев назад), сейчас мы работаем с Аргоннской национальной лабораторией и HPE над полной стабилизацией и настройкой системы, вычислительных узлов, системой хранения данных, коммутационной структурой, системой электропитания и системой охлаждения. Мы также активно работаем над решением проблем стабильности, проявляющихся в аппаратных сбоях, ошибках программного обеспечения, неисправностях системы охлаждения, проблемах с электропитанием, стабильностью сетевой инфраструктуры, операционных ошибках, а также над экологическими факторами», — отметил в разговоре с Tom's Hardware представитель Intel.
Аргоннская национальная лаборатория и Intel пока не готовы говорить о том, когда Aurora станет полностью работоспособным.