Сегодня 11 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → фреймворк

Учёные нашли способ удвоить скорость вычислений компьютеров без замены железа

На 56-м ежегодном Международном симпозиуме IEEE/ACM по микроархитектуре исследователи из Калифорнийского университета в Риверсайде (UCR) продемонстрировали подход, при котором любые вычислительные компоненты платформы по-настоящему будут работать одновременно. За счёт этого можно в два раза увеличить скорость вычислений и в два раза сократить потребление энергии. Технология может работать на любых процессорах и ускорителях от смартфонов до серверов ЦОД, но требует доработки.

 Источник изображения: ИИ-генерация DALL-E/newatlas.com

Источник изображения: ИИ-генерация DALL-E/newatlas.com

«Вам не нужно [для ускорения вычислений] добавлять новые процессоры, потому что они у вас уже есть», — сказал Хунг-Вей Ценг (Hung-Wei Tseng), адъюнкт-профессор факультета электротехники и вычислительной техники Калифорнийского университета и соавтор исследования. Необходимо лишь грамотно распорядиться имеющимися аппаратными ресурсами, а не выстраивать их все в очередь.

Разработанная исследователями платформа, которую они назвали одновременной и гетерогенной многопоточностью (SHMT), отходит от традиционных моделей программирования. Вместо того чтобы предоставлять за один промежуток времени данные лишь одному из вычислительных компонентов системы — центральному, графическому, тензорному или другому процессору или ускорителю, технология SHMT распараллеливает исполнение кода сразу по всем компонентам одновременно.

 Тестовая платформа. Источник изображения: Hsu and Tseng

Тестовая платформа. Источник изображения: Hsu and Tseng

SHMT использует политику планирования многопоточности с учетом такого параметра, как quality-aware work-stealing (QAWS), которая не требует больших затрат ресурсов, но зато помогает поддерживать контроль качества и баланс рабочей нагрузки. Система исполнения создаёт и делит набор виртуальных операций (vOPS) на одну или несколько высокоуровневых операций (HLOPs) для одновременного использования нескольких аппаратных ресурсов. Затем система исполнения SHMT распределяет эти HLOPS по очередям задач для запуска на целевом оборудовании. Поскольку HLOPS не зависят от оборудования, система исполнения может перенаправлять задачи по мере необходимости на тот или иной компонент вычислительной платформы.

 Сравненние методов распараллеливания обычного, совреемнного гетерогенного и SHMT

Сравнение методов распараллеливания обычного, современного гетерогенного и SHMT

Что особенно ценно, исследователи на примере созданной ими тестовой платформы показали эффективность работы новых программных библиотек. Они создали некий гибрид, который можно считать как смартфоном, так и подобием ПК и даже сервера. На базе объединяющей платы с разъёмом PCIe был создан «компьютер» из комбинации модуля NVIDIA Nano Jetson с четырёхъядерным процессором ARM Cortex-A57 (CPU) и 128 графическими ядрами архитектуры Maxwell (GPU). Через слот M.2 Key E на плате был подключен ускоритель Google Edge (TPU).

 Ускорение вычислений SHMT в зависимости от выбранной политики

Ускорение вычислений SHMT в зависимости от выбранной политики

Основная память представленной системы — это 4 Гбайт LPDDR4 с частотой 1600 МГц и скоростью 25,6 Гбит/с, где хранятся общие данные. Модуль Edge TPU дополнительно содержит 8 Мбайт памяти, а в качестве операционной системы использовался Ubuntu Linux 18.04.

 Сравнение потребления в активном режиме и при простое при обычных вычислениях и с использованием SHMT

Сравнение потребления в активном режиме и при простое при обычных вычислениях и с использованием SHMT

Запуск на импровизированной гетерогенной платформе пакета SHMT с использованием стандартных приложений для тестирования показал, что при наиболее эффективной политике фреймворк QAWS показывает увеличение скорости вычислений в 1,95 раза и значительное сокращение потребления — на 51 % по сравнению с базовым методом распределения вычислений. Если масштабировать этот подход для использования в составе ЦОД, то выигрыш обещает оказаться колоссальным и при этом всё «железо» останется прежним — менять ничего не придётся. Предложенное решение пока не готово к внедрению, но наверняка без труда найдёт заинтересованных в этом лиц.

Apple представила фреймворк MLX для разработки ИИ под компьютеры Mac

Apple объявила о выходе платформы MLX (ML Explore), предназначенной для разработки систем искусственного интеллекта, которые будут запускаться на компьютерах с её собственными процессорами Apple Silicon. Все необходимые компоненты доступны на GitHub.

 Источник изображения: apple.com

Источник изображения: apple.com

Цель проекта — упростить обучение и развёртывание моделей ИИ для исследователей, работающих на компьютерах Apple. Инструмент ориентирован не на потребителя, а на разработчиков, у которых теперь появилась мощная среда — есть похожие друг на друга API Python и API C++; поддерживается унифицированная память, то есть массивы данных находятся в общей памяти, и операции могут выполняться на центральном или графическом процессоре без копирования.

Apple также представила набор примеров того, на что способен фреймворк MLX:

  • обучение языковой модели — трансформера и его настройка с помощью LoRA;
  • генерация текста с помощью языковых моделей LLaMA и Mistral;
  • генерация изображений с помощью Stable Diffusion;
  • распознавание речи с помощью Whisper.

Apple осознала потребность в открытых и простых средах разработки систем машинного обучения — они позволят стимулировать дальнейшую работу в этой области. Важно, что MLX работает на чипах Apple, а они теперь используются во всех её продуктах, включая Mac, iPhone и iPad. Фреймворк задействует ресурсы центрального и графического процессоров, помогая добиться достаточно высокой производительности — возможно, в перспективе можно будет подключать ИИ-ускоритель Neural Engine, который также есть на этих чипах.


window-new
Soft
Hard
Тренды 🔥
ГК «Гарда»: лишь треть российских компаний использует решения для защиты данных 7 мин.
Новая статья: В малом весе: обзор российских мобильных операционных систем 9 ч.
YouTube объявил о закрытии раздела «В тренде», но уже готовит ему замену 9 ч.
Первый геймплей боевика «Земский собор» от создателей «Смуты» не впечатлил игроков 9 ч.
Спутниковый интернет Starlink теперь доступен в 1000 самолётов по всему миру — 100 Мбит/с в небе, бесплатно 10 ч.
Забастовка актёров озвучки игр наконец завершена — участники SAG-AFTRA одобрили новый договор 11 ч.
«Я был пьян, но утечки так и не случилось»: глава издательского отдела Larian рассказал, как чуть не «слил» дату выхода Baldur's Gate 3 13 ч.
Google Gemini научился превращать фото в восьмисекундные видео со звуком, но небесплатно 13 ч.
ЕС открыл новое дело против TikTok за передачу данных европейцев в Китай — ранее соцсеть уже штрафовали за это на €530 млн 13 ч.
Elden Ring Nightreign возглавила рейтинг самых продаваемых игр в США за май — в первой пятёрке оказалось четыре игры от Microsoft 14 ч.
Электрический гиперкар Rimac Nevera R установил 24 новых мировых рекорда, разогнавшись до 431,45 км/ч 39 мин.
Huawei пытается продвигать свои ускорители вычислений на Ближнем Востоке и в Юго-Восточной Азии 2 ч.
Аналитики усомнились в рентабельности бизнеса Starlink после опубликованного отчёта 3 ч.
Масштабные планы Apple на 2026: новые Mac, iPad, iPhone и неожиданно внешний монитор 3 ч.
Глава Nvidia встретился с Дональдом Трампом перед визитом в Китай, капитализация компании превысила $4 трлн 4 ч.
Meta готовит новые умные очки Ray-Ban без дисплея, но с улучшенной батареей 4 ч.
Razer представила игровую мышь DeathAdder V4 Pro за $170 с оптическим колёсиком и сенсором на 45 000 DPI 10 ч.
Philips выпустила 27-дюймовый игровой монитор Evnia 27M2N3800A с поддержкой 4K@160 Гц и FHD@320 Гц 10 ч.
Роботы-койоты на колёсах заменили робопсов в охране военных аэродромов США от диких зверей — они оказались шустрее 12 ч.
Infinix представила тонкие и недорогие смартфоны Hot 60 Pro+ и Hot 60 Pro с ярким дизайном и быстрыми экранами 13 ч.