Сегодня 26 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности — с алгоритмом TurboQuant

Исследовательский отдел Google Research опубликовал работу о технологии TurboQuant — алгоритме квантизации, который сокращает разрядность KV-кеша больших языковых моделей до 3 битов без потери точности в ответах и без потребности в дополнительном обучении. В тестах на ускорителях искусственного интеллекта Nvidia H100 4-битный алгоритм TurboQuant (с четвёртым битом на коррекцию ошибок) помог восьмикратно повысить производительность при вычислении логитов внимания в сравнении с неквантованными 32-битными ключами; при этом объём KV-кеша сократился в шесть раз.

 Источник изображения: and machines / unsplash.com

Источник изображения: and machines / unsplash.com

В KV-кеше хранятся ранее вычисленные данные механизма внимания, чтобы модели не приходилось пересчитывать их на каждом шаге генерации токенов. По мере роста контекстного окна этот кеш существенно разрастается; традиционные методы квантования помогают уменьшить размер кеша, но за это приходится «расплачиваться» несколькими дополнительными битами на значение из-за констант квантования, которые хранятся вместе со сжатыми данными — это своего рода аналог словаря из традиционных алгоритмов архивирования данных ZIP и RAR. При большом размере контекстного окна эти накладные расходы всё равно оказываются значительными.

TurboQuant помогает устранить эти накладные расходы в двухэтапном процессе, то есть обходится вообще без словаря. На первом этапе срабатывает метод PolarQuant — преобразование векторов данных из декартовых в полярные координаты. Каждому вектору присваивается значение радиуса (длины) и угла (направления). Угловые распределения предсказуемы и сконцентрированы, поэтому PolarQuant обходится без ресурсоёмкого этапа нормализации каждого блока, который неизбежен с традиционными квантизаторами. На выходе получается сжатие высокого качества без накладных расходов на хранение констант внимания — словарей.

 Источник изображения: Conny Schneider / unsplash.com

Источник изображения: Conny Schneider / unsplash.com

На втором этапе применяется 1-битный слой коррекции ошибок с использованием квантованного алгоритма Джонсона-Линденштрауса. Остаточная ошибка квантования проецируется в пространство меньшей размерности, каждое значение сводится к одному знаковому биту, устраняя тем самым систематическую погрешность в вычислениях оценки внимания с незначительными дополнительными издержками.

Google протестировала две составляющих алгоритма TurboQuant в отдельности и их совместную работу в бенчмарках с длинным контекстом LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval на открытых моделях Gemma и Mistral. TurboQuant показал идеальные результаты в задачах класса поиска «иголки в стоге сена» добившись сжатия KV-кеша минимум в шесть раз. В группе тестов LongBench, включающей ответы на вопросы, генерацию кода и создание сводок, TurboQuant оказался не хуже, а то и лучше базового алгоритма сжатия KIVI по всем задачам.

TurboQuant показал эффективность не только в работе с большими языковыми моделями, но и в векторном поиске — его протестировали в сравнении с известными алгоритмами сжатия Product Quantization и RabbiQ на наборе данных GloVe. Даже без обучения и оптимизации разработанный в Google алгоритм показал более качественные результаты, чем его соперники, настроенные специально для работы с этим набором данных. TurboQuant вообще не требует ни обучения, ни тонкой настройки, а его выполнение сопровождается незначительными накладными расходами — он готов для развёртывания даже в условиях повышенной нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
С выходом нового патча для Escape from Tarkov игроки могут посетить «Ледокол» — атмосферную PvE-карту 14 мин.
Китай пресёк утечку ИИ-талантов за рубеж, запретив им выезд из страны без особого разрешения 2 ч.
Апокалипсис рабочих мест не наступил: Сэм Альтман признал, что переоценил опасность ИИ для рынка труда 3 ч.
Регулятор выдал планы Paradox на Lego-игру в серии Cities: Skylines — Lego Skylines 4 ч.
«Яндекс» запустит ИИ-генератор сайтов и веб-приложений по текстовому описанию 4 ч.
«На рынке так много нескончаемых видеоигр»: разработчики The Talos Principle 3 объяснили, почему третья часть станет последней в серии 5 ч.
Путь к чистоте священной машины: Owlcat раскрыла детали ключевой механики в аддоне «Неисчислимый музеон» для Warhammer 40,000: Rogue Trader 5 ч.
Президент Ирана подписал указ о восстановлении подключения страны к интернету — после почти трёх месяцев блокировки 7 ч.
Попытка не пытка: после отмены Contraband разработчики Just Cause взялись за ещё одну игру-сервис 7 ч.
Гибкие настройки безопасности и новые инструменты для работы с шаблонами — «Базис» обновил конструктор Basis Automation Studio до версии 2.4 8 ч.
Выручка xFusion, отделившейся из-за санкций от Huawei, за четыре года выросла шестикратно на фоне поддержки ИИ-отрасли государством 6 мин.
Европейский Arm-процессор SiPearl Rhea1 для суперкомпьютеров стал на шаг ближе к массовому выпуску 2 ч.
Особенности и цена умного кольца Oura Ring 5 раскрыты в преддверии анонса 2 ч.
Asus представила ROG Rapture GT-BN98 Pro — свой первый геймерский маршрутизатор с Wi-Fi 8 2 ч.
SpaceX готовит тарелку Starlink Mini на батарейках — она пригодится не только в походах 2 ч.
AOC представила AGON PRO AGP257FT — свой первый 1000-Гц монитор с Full HD 2 ч.
ИИ-бум расколол Samsung: сотрудники судятся из-за гигантских премий производителям чипов 2 ч.
Sennheiser представила полноразмерные наушники Momentum 5 Wireless с улучшенными шумоподавлением и автономностью 2 ч.
SK hynix представила iHBM — память HBM со встроенным охлаждением ICE для будущих ИИ-чипов 5 ч.
Одноплатный компьютер ODROID-H5 получил порт 10GbE и четыре слота M.2 5 ч.