Сегодня 17 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

SK hynix предложила неоригинальный костыль для ускорения ИИ-моделей — гибридную архитектуру памяти HBM/HBF

Светлая мысль разместить больше памяти рядом с процессором пришла не в одну голову. Год назад о разработке концепции замены памяти HBM (DRAM) памятью HBF (флеш) сообщила компания SanDisk. На днях работу о таком подходе опубликовала компания SK Hynix. Флеш-память NAND попросту плотнее памяти DRAM, и с позиции увеличения места под токены для ИИ замена одной на другую даст впечатляющий результат в виде роста скорости принятия решений.

 Источник изображения: SK Hynix

Источник изображения: SK Hynix

Не секрет, что современные платформы на базе центральных, графических и тензорных процессоров сталкиваются с серьёзным ограничением по объёму приданной им памяти High Bandwidth Memory (HBM), что сплошь и рядом происходит при работе с большими языковыми моделями. Например, модели вроде Llama 4 поддерживают до 10 млн токенов, что требует кэш объёмом до 5,4 Тбайт. Стандартные решения, такие как частичный сброс кэша на локальные SSD, приводят к значительным задержкам из-за низкой пропускной способности шины и медленного доступа к накопителям. В результате образуется узкое место по пропускной способности, что можно обойти только наращиванием массива ускорителей, а это — лишние деньги и энергопотребление.

Предложенная компанией SK hynix гибридная иерархия памяти или архитектура H³ (Hybrid³), объединяющая HBM и новый пока тип памяти High Bandwidth Flash (HBF) на одном интерпозере вместе с процессором, решает проблему нехватки памяти для токенов ИИ. Память HBM продолжит использоваться так же, как и раньше — для данных с высокой частотой записи и чтения (динамически генерируемый кэш), а HBF — для данных с интенсивным чтением.

Использование флеш-памяти HBF обеспечит до 16 раз большую ёмкость при пропускной способности, близкой к HBM, хотя задержка доступа останется выше на один или даже два порядка, износостойкость будет ниже, а энергопотребление может быть в 4 раза больше. В то же время массив гибридной памяти окажется единым для процессора, а грамотная маршрутизация запросов сведёт на нет все негативные последствия «тормозов» флеш-памяти.

Результаты моделирования на конфигурации Nvidia Blackwell GPU с 8 стеками HBM3E и 8 стеками HBF на интерпозере демонстрируют впечатляющие улучшения. При 1 млн токенов контекста производительность в токенах в секунду вырастает в 1,25 раза, при 10 млн токенов — уже в 6,14 раза по сравнению с чисто HBM-системой, а энергоэффективность становится выше в 2,69 раза. И если раньше для обработки запросов такого масштаба требовалось 32 GPU, то теперь работа может быть выполнена всего на 2 GPU с существенным снижением энергозатрат и общей стоимости системы. Ради такого стоит рискнуть и создать коммерческие решения, считают в компании.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Критики вынесли вердикт Styx: Blades of Greed — гоблинский стелс-экшен заслужил сравнение с Dishonored и звание лучшей игры в серии 52 мин.
Unity пообещала ИИ, который позволит создавать игры по текстовому описанию — вообще без программирования 2 ч.
Хакеры применили поддельные страницы CAPTCHA для распространения вирусов для Windows 2 ч.
«Достигли дна, но тут снизу постучали»: российский MMO-шутер Pioner ещё до выхода из раннего доступа снабдили платной подпиской, и фанаты не рады 2 ч.
Российский бизнес распробовал ИИ от Яндекса — потребление токенов за год выросло всемеро 2 ч.
Microsoft подтвердила релиз Kingdom Come: Deliverance 2 в Game Pass, а скоро в подписку добавят полное издание The Witcher 3: Wild Hunt 3 ч.
Microsoft обвинили в незаконном сборе голосовых данных в Teams в течение пяти лет 4 ч.
В ChatGPT появился «Режим блокировки» и маркировка повышенного риска для защиты важных данных 4 ч.
Resident Evil Requiem попала в руки первых игроков за десять дней до релиза — фанаты приготовились к утечкам 4 ч.
В Европе запустили очередное расследование из-за непристойных генераций ИИ-бота Grok в соцсети X 5 ч.
Новый лунный скафандр завершил заводские испытания и передан для приёмки NASA 2 ч.
Китай вывел гуманоидных роботов на сцену главного новогоднего шоу страны — они показали своё кунг-фу 2 ч.
Минцифры наметило масштабную замену «меди» на оптоволокно — за отказ связь смогут отключить 2 ч.
SK hynix предложила неоригинальный костыль для ускорения ИИ-моделей — гибридную архитектуру памяти HBM/HBF 2 ч.
У крупнейшего японского производителя унитазов Toto нашли огромный потенциал в сфере ИИ 2 ч.
Samsung зачем-то прорекламировала камеру Galaxy S26 не реальной съёмкой, а ИИ-бурдой 3 ч.
Госдума приняла закон об отключении интернета по требованию ФСБ 4 ч.
Видеокарты подорожали в среднем на 15 % с ноября — сильнее всех прибавили RTX 5070 Ti и RTX 5090 6 ч.
Автомобили скоро подорожают, предупредила Ford — кризис памяти из-за ИИ добрался до автопрома 6 ч.
Индийская Neysa привлечёт $1,2 млрд для расширения ИИ-облака 7 ч.