Сегодня 20 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

SK hynix предложила неоригинальный костыль для ускорения ИИ-моделей — гибридную архитектуру памяти HBM/HBF

Светлая мысль разместить больше памяти рядом с процессором пришла не в одну голову. Год назад о разработке концепции замены памяти HBM (DRAM) памятью HBF (флеш) сообщила компания SanDisk. На днях работу о таком подходе опубликовала компания SK Hynix. Флеш-память NAND попросту плотнее памяти DRAM, и с позиции увеличения места под токены для ИИ замена одной на другую даст впечатляющий результат в виде роста скорости принятия решений.

 Источник изображения: SK Hynix

Источник изображения: SK Hynix

Не секрет, что современные платформы на базе центральных, графических и тензорных процессоров сталкиваются с серьёзным ограничением по объёму приданной им памяти High Bandwidth Memory (HBM), что сплошь и рядом происходит при работе с большими языковыми моделями. Например, модели вроде Llama 4 поддерживают до 10 млн токенов, что требует кэш объёмом до 5,4 Тбайт. Стандартные решения, такие как частичный сброс кэша на локальные SSD, приводят к значительным задержкам из-за низкой пропускной способности шины и медленного доступа к накопителям. В результате образуется узкое место по пропускной способности, что можно обойти только наращиванием массива ускорителей, а это — лишние деньги и энергопотребление.

Предложенная компанией SK hynix гибридная иерархия памяти или архитектура H³ (Hybrid³), объединяющая HBM и новый пока тип памяти High Bandwidth Flash (HBF) на одном интерпозере вместе с процессором, решает проблему нехватки памяти для токенов ИИ. Память HBM продолжит использоваться так же, как и раньше — для данных с высокой частотой записи и чтения (динамически генерируемый кэш), а HBF — для данных с интенсивным чтением.

Использование флеш-памяти HBF обеспечит до 16 раз большую ёмкость при пропускной способности, близкой к HBM, хотя задержка доступа останется выше на один или даже два порядка, износостойкость будет ниже, а энергопотребление может быть в 4 раза больше. В то же время массив гибридной памяти окажется единым для процессора, а грамотная маршрутизация запросов сведёт на нет все негативные последствия «тормозов» флеш-памяти.

Результаты моделирования на конфигурации Nvidia Blackwell GPU с 8 стеками HBM3E и 8 стеками HBF на интерпозере демонстрируют впечатляющие улучшения. При 1 млн токенов контекста производительность в токенах в секунду вырастает в 1,25 раза, при 10 млн токенов — уже в 6,14 раза по сравнению с чисто HBM-системой, а энергоэффективность становится выше в 2,69 раза. И если раньше для обработки запросов такого масштаба требовалось 32 GPU, то теперь работа может быть выполнена всего на 2 GPU с существенным снижением энергозатрат и общей стоимости системы. Ради такого стоит рискнуть и создать коммерческие решения, считают в компании.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Apple прояснила ситуацию с отсутствием поддержки watchOS 27 на старых смарт-часах 2 ч.
Microsoft обнаружила новый вредонос для кражи криптовалюты, распространяемый на USB-накопителях 2 ч.
Еврокомиссия выбрала, кто построит официальную европейскую модель ИИ с 400 млрд параметров 2 ч.
Трамп перестал считать Anthropic угрозой нацбезопасности США 4 ч.
Новая статья: Solarpunk — выживание под солнечными лучами. Рецензия 15 ч.
«Спасибо за вашу страсть к игре»: Valve поздравила Counter-Strike с 27-летием 18 ч.
Никакого ИИ в браузере — Vivaldi пообещала «сохранить человеческий подход к просмотру веб-страниц» 20 ч.
Легендарная российская игра «Вангеры» спустя 28 лет получила поддержку 60 кадров/с и исправления древних багов 20 ч.
Слухи: амбициозный самурайский боевик Onimusha: Way of the Sword от Capcom выйдет на три недели раньше запланированного 21 ч.
Google заявила о готовности запустить программу верификации разработчиков и приложений 22 ч.
Южнокорейская установка за 90 секунд превращает спитый кофе в топливо высочайшего класса 30 мин.
Сделка Microsoft с Oracle по аренде облачной инфраструктуры сорвалась из-за требований безопасности 2 ч.
NASA попытается спасти падающую обсерваторию Swift с помощью космического буксира 2 ч.
Политические меры вряд ли ослабят дефицит памяти на потребительском рынке 2 ч.
Учёные создали простой регулируемый источник квантового света — его буквально можно подкрутить до нужного режима 3 ч.
В Индии запустят собственный спутниковый интернет — конкурента Starlink 4 ч.
AMD под давлением общественности вернёт шифрование памяти в потребительские Ryzen 4 ч.
Миллиарды потрачены впустую: NASA похоронило проект окололунной станции Gateway 4 ч.
Samsung подтвердила разработку чипа Exynos 2700 и его возможное появление в Galaxy S27 5 ч.
Hyundai полностью выкупит Boston Dynamics у SoftBank 14 ч.