Сегодня 05 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Уютное приключение Hidalgo по мотивам «Дон Кихота» отправит игроков переживать знаковые моменты легендарного романа 44 мин.
Google: киберпреступники активно эксплуатировали 90 уязвимостей нулевого дня в прошлом году 2 ч.
«Ещё более пустой, чем моя душа»: фанатов не впечатлили девять минут геймплея Forza Horizon 6 в открытом мире Японии 3 ч.
Представлена российская GitOps-платформа HyperDrive для автоматизации процессов разработки 3 ч.
Олдскульный шутер Starship Troopers: Ultimate Bug War позволит стать арахнидом — 13 минут геймплея в режиме жуков 3 ч.
Ни в интернет выйти, ни Doom запустить: созданная ИИ операционная система Vib-OS оказалась жалкой пародией на ОС 4 ч.
Apple Music начнёт помечать созданные с помощью ИИ композиции 4 ч.
Google начала помечать Android-приложения с высоким расходом батареи 4 ч.
PlayStation и Xbox раскрыли дату выхода паранормального хоррора The Occultist до официального анонса 4 ч.
Разработчиков MindsEye накрыла ещё одна волна увольнений — во всём виноват «организованный шпионаж и корпоративный саботаж» 5 ч.
Nebius одобрили строительство первой гигаваттной ИИ-фабрики в США — экологичной и малошумной 2 ч.
Репортаж со стенда TECNO на MWC 2026: флагманы CAMON 50, ИИ, смелые концепты и коллаборация с Tonino Lamborghini 2 ч.
Foxconn похвалилась ростом выручки на 22 % в этом году благодаря ИИ и Nvidia 3 ч.
Honor представила первый смартфон 600-й серии, не дожидаясь глобального запуска предыдущего семейства 3 ч.
Infinix представила смартфон Note 60 Ultra с дизайном от Pininfarina 4 ч.
В ближайшие годы Broadcom не ожидает конкуренции от ИИ-компаний в разработке чипов 5 ч.
Аналитики объяснили, как Apple ворвалась в сегмент доступных ноутбуков во время кризиса памяти 6 ч.
Realme представила смартфон с батареей на 10 001 мА·ч за $305 — Narzo Power 5G 6 ч.
TCL представила двухрежимный 31,5-дюймовый OLED-монитор с 4K@240 Гц и 1080p@480 Гц 6 ч.
Мировые поставки экранов для смартфонов в 2026 году сократятся на 7,3 % — виноват снова дефицит памяти 6 ч.