В Китае намекнули на создание многочиповых ИИ-ускорителей, способных потягаться с Nvidia Blackwell

Разработанные в Китае ускорители ИИ из логических чиплетов на основе 14-нм техпроцесса и памяти DRAM на базе 18-нм техпроцесса в состоянии конкурировать с чипами Nvidia Blackwell, которые производятся по 4-нм техпроцессу TSMC. Такое мнение на отраслевом мероприятии озвучил Вэй Шаоцзюнь (Wei Shaojun), заместитель председателя Китайской ассоциации полупроводниковой промышленности и профессор Университета Цинхуа, сообщает DigiTimes.

Источник изображения: AMD

Выступая на глобальном саммите руководителей высшего звена ICC, Вэй Шаоцзюнь отметил, что ключом к прорыву в области производительности и эффективности станет передовая технология 3D-стекинга, используемая при создании китайских ускорителей.

Вэй Шаоцзюнь, ранее заявивший, что цели, поставленные Китаем в рамках программы «Сделано в Китае 2025», недостижимы, и позднее призвавший страну отказаться от использования иностранных ускорителей искусственного интеллекта, таких как Nvidia H20, и перейти на отечественные решения, описал гипотетическое «полностью контролируемое отечественное решение», которое объединит 14-нм логику с 18-нм DRAM с использованием 3D-гибридной склейки. Никаких доказательств разработки или хотя бы подтверждений возможности реализации подобного решения с использованием имеющихся у Китая технологий при этом он не привёл.

По словам Вэя, такая конфигурация призвана приблизиться к производительности 4-нм графических процессоров Nvidia, несмотря на использование устаревших технологий. Он считает, что такое решение может обеспечить производительность 120 терафлопс. Он также заявил, что энергопотребление составит всего около 60 Вт, что, по словам Вэя, обеспечит более высокую производительность (2 терафлопса на ватт) по сравнению с процессорами Intel Xeon. Для сравнения: ускоритель Nvidia B200 обеспечивает производительность 10 000 NVFP4-терафлопс при потреблении 1200 Вт, что составляет 8,33 NVFP4-терафлопса на ватт. Nvidia B300 обеспечивает производительность 10,7 NVFP4-терафлопса на ватт, что в пять раз превышает возможности ИИ-ускорителя, о котором заявил Вэй.

Ключевыми технологиями, призванными значительно повысить производительность ИИ-ускорителя, разрабатываемого в Китае, являются 3D-гибридное соединение (медь-медь и оксидное соединение), которое заменяет столбиковые выводы припоя прямыми медными соединениями с шагом менее 10 мкм, а также вычисления, близкие к уровню оперативной памяти. Гибридное склеивание с шагом менее 10 мкм позволяет создавать от десятков до сотен тысяч вертикальных соединений на 1 мм², а также сигнальные тракты микрометрового масштаба для высокоскоростных соединений с малой задержкой.

Одним из лучших примеров технологии гибридного 3D-склеивания является 3D V-Cache от AMD, обеспечивающий пропускную способность 2,5 Тбайт/с при энергии ввода-вывода 0,05 пДж/бит. Вэй, вероятно, рассчитывает на аналогичный показатель для своего проекта. 2,5 Тбайт/с на устройство — это значительно выше, чем пропускная способность памяти HBM3E, поэтому это может стать прорывом для ускорителей ИИ, основанных на концепции вычислений, близких к оперативной памяти. Вэй также отметил, что теоретически эта концепция может масштабироваться до производительности уровня зеттафлопс, хотя он не уточнил, когда и как такие показатели будут достигнуты.

Вэй обозначил платформу CUDA от Nvidia как ключевой риск не только для описанной им альтернативы, но и для аппаратных платформ, отличных от Nvidia, поскольку после объединения программного обеспечения, моделей и аппаратного обеспечения на единой проприетарной платформе становится сложно развернуть альтернативные процессоры. Учитывая, что он рассматривал вычисления, близкие к уровню оперативной памяти, как способ значительного повышения конкурентоспособности оборудования для ИИ, разработанного в Китае, любая альтернативная платформа, не основанная на этой концепции (включая китайские ускорители ИИ, например серию Huawei Ascend или графические процессоры Biren), может считаться несовместимой.