Сегодня 15 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

SK hynix предложила неоригинальный костыль для ускорения ИИ-моделей — гибридную архитектуру памяти HBM/HBF

Светлая мысль разместить больше памяти рядом с процессором пришла не в одну голову. Год назад о разработке концепции замены памяти HBM (DRAM) памятью HBF (флеш) сообщила компания SanDisk. На днях работу о таком подходе опубликовала компания SK Hynix. Флеш-память NAND попросту плотнее памяти DRAM, и с позиции увеличения места под токены для ИИ замена одной на другую даст впечатляющий результат в виде роста скорости принятия решений.

 Источник изображения: SK Hynix

Источник изображения: SK Hynix

Не секрет, что современные платформы на базе центральных, графических и тензорных процессоров сталкиваются с серьёзным ограничением по объёму приданной им памяти High Bandwidth Memory (HBM), что сплошь и рядом происходит при работе с большими языковыми моделями. Например, модели вроде Llama 4 поддерживают до 10 млн токенов, что требует кэш объёмом до 5,4 Тбайт. Стандартные решения, такие как частичный сброс кэша на локальные SSD, приводят к значительным задержкам из-за низкой пропускной способности шины и медленного доступа к накопителям. В результате образуется узкое место по пропускной способности, что можно обойти только наращиванием массива ускорителей, а это — лишние деньги и энергопотребление.

Предложенная компанией SK hynix гибридная иерархия памяти или архитектура H³ (Hybrid³), объединяющая HBM и новый пока тип памяти High Bandwidth Flash (HBF) на одном интерпозере вместе с процессором, решает проблему нехватки памяти для токенов ИИ. Память HBM продолжит использоваться так же, как и раньше — для данных с высокой частотой записи и чтения (динамически генерируемый кэш), а HBF — для данных с интенсивным чтением.

Использование флеш-памяти HBF обеспечит до 16 раз большую ёмкость при пропускной способности, близкой к HBM, хотя задержка доступа останется выше на один или даже два порядка, износостойкость будет ниже, а энергопотребление может быть в 4 раза больше. В то же время массив гибридной памяти окажется единым для процессора, а грамотная маршрутизация запросов сведёт на нет все негативные последствия «тормозов» флеш-памяти.

Результаты моделирования на конфигурации Nvidia Blackwell GPU с 8 стеками HBM3E и 8 стеками HBF на интерпозере демонстрируют впечатляющие улучшения. При 1 млн токенов контекста производительность в токенах в секунду вырастает в 1,25 раза, при 10 млн токенов — уже в 6,14 раза по сравнению с чисто HBM-системой, а энергоэффективность становится выше в 2,69 раза. И если раньше для обработки запросов такого масштаба требовалось 32 GPU, то теперь работа может быть выполнена всего на 2 GPU с существенным снижением энергозатрат и общей стоимости системы. Ради такого стоит рискнуть и создать коммерческие решения, считают в компании.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Великобритании полицейского уличили в фальсификации доказательств преступлений с помощью ИИ 4 ч.
«Кто купит Xbox и Game Pass ради Gears?»: инсайдер рассекретил «безумный» бюджет Gears of War: E-Day 4 ч.
Anthropic проведёт переговоры с властями США для разблокировки ИИ-моделей Mythos 5 и Fable 5 5 ч.
Авторитетный инсайдер подтвердил, когда выйдет God of War Laufey 5 ч.
Журналисты раскрыли подробности неанонсированного кооперативного ролевого боевика по «Ведьмаку» 6 ч.
Власти США заподозрили Китай в несанкционированном доступе к модели Mythos компании Anthropic 9 ч.
К сентябрю Apple подготовит ряд новых функций для iOS 27 10 ч.
Блокировщики рекламы не перестанут работать в Google Chrome после прекращения поддержки Manifest V2 24 ч.
Отключить доступ иностранцев к передовым моделям Anthropic пришлось по наводке главы Amazon 14-06 07:23
Новая статья: Fatekeeper — наконец-то Dark Messiah 2? Предварительный обзор 14-06 00:05
Dreame H16 Pro Steam и Dreame Z40 TangleCut Flex+: какой пылесос выбрать — моющий или для сухой уборки? 15 мин.
Дата-центры Amazon «выпили» почти 9,5 млн кубометров воды в 2025 году 43 мин.
К концу года SK hynix намерена начать массовое производство 375-слойной памяти 3D NAND 50 мин.
SteamOS научили работать с процессорами Intel и настольной видеокартой Arc B580 3 ч.
Pinterest заключила с AWS самую крупную инфраструктурную сделку, планируя потратить $4 млрд на облачные сервисы, Graviton и Trainium 3 ч.
В Сингапуре запущен суперкомпьютер ASPIRE 2B на базе NVIDIA H200 и AMD EPYC Turin с быстродействие 115 Пфлопс 4 ч.
Helix Digital Infrastructure привлекла более $10 млрд на строительство ИИ-инфраструктуры «под ключ» 4 ч.
Tesla заподозрили в искажении данных о безопасности автопилота для европейских регуляторов 4 ч.
Маск: годовая выручка SpaceX взлетит до $1 трлн уже к 2031 году 4 ч.
Mimulus анонсировала услугу архивирования данных с использованием ДНК 7 ч.