Сегодня 25 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → фреймворк

Учёные нашли способ удвоить скорость вычислений компьютеров без замены железа

На 56-м ежегодном Международном симпозиуме IEEE/ACM по микроархитектуре исследователи из Калифорнийского университета в Риверсайде (UCR) продемонстрировали подход, при котором любые вычислительные компоненты платформы по-настоящему будут работать одновременно. За счёт этого можно в два раза увеличить скорость вычислений и в два раза сократить потребление энергии. Технология может работать на любых процессорах и ускорителях от смартфонов до серверов ЦОД, но требует доработки.

 Источник изображения: ИИ-генерация DALL-E/newatlas.com

Источник изображения: ИИ-генерация DALL-E/newatlas.com

«Вам не нужно [для ускорения вычислений] добавлять новые процессоры, потому что они у вас уже есть», — сказал Хунг-Вей Ценг (Hung-Wei Tseng), адъюнкт-профессор факультета электротехники и вычислительной техники Калифорнийского университета и соавтор исследования. Необходимо лишь грамотно распорядиться имеющимися аппаратными ресурсами, а не выстраивать их все в очередь.

Разработанная исследователями платформа, которую они назвали одновременной и гетерогенной многопоточностью (SHMT), отходит от традиционных моделей программирования. Вместо того чтобы предоставлять за один промежуток времени данные лишь одному из вычислительных компонентов системы — центральному, графическому, тензорному или другому процессору или ускорителю, технология SHMT распараллеливает исполнение кода сразу по всем компонентам одновременно.

 Тестовая платформа. Источник изображения: Hsu and Tseng

Тестовая платформа. Источник изображения: Hsu and Tseng

SHMT использует политику планирования многопоточности с учетом такого параметра, как quality-aware work-stealing (QAWS), которая не требует больших затрат ресурсов, но зато помогает поддерживать контроль качества и баланс рабочей нагрузки. Система исполнения создаёт и делит набор виртуальных операций (vOPS) на одну или несколько высокоуровневых операций (HLOPs) для одновременного использования нескольких аппаратных ресурсов. Затем система исполнения SHMT распределяет эти HLOPS по очередям задач для запуска на целевом оборудовании. Поскольку HLOPS не зависят от оборудования, система исполнения может перенаправлять задачи по мере необходимости на тот или иной компонент вычислительной платформы.

 Сравненние методов распараллеливания обычного, совреемнного гетерогенного и SHMT

Сравнение методов распараллеливания обычного, современного гетерогенного и SHMT

Что особенно ценно, исследователи на примере созданной ими тестовой платформы показали эффективность работы новых программных библиотек. Они создали некий гибрид, который можно считать как смартфоном, так и подобием ПК и даже сервера. На базе объединяющей платы с разъёмом PCIe был создан «компьютер» из комбинации модуля NVIDIA Nano Jetson с четырёхъядерным процессором ARM Cortex-A57 (CPU) и 128 графическими ядрами архитектуры Maxwell (GPU). Через слот M.2 Key E на плате был подключен ускоритель Google Edge (TPU).

 Ускорение вычислений SHMT в зависимости от выбранной политики

Ускорение вычислений SHMT в зависимости от выбранной политики

Основная память представленной системы — это 4 Гбайт LPDDR4 с частотой 1600 МГц и скоростью 25,6 Гбит/с, где хранятся общие данные. Модуль Edge TPU дополнительно содержит 8 Мбайт памяти, а в качестве операционной системы использовался Ubuntu Linux 18.04.

 Сравнение потребления в активном режиме и при простое при обычных вычислениях и с использованием SHMT

Сравнение потребления в активном режиме и при простое при обычных вычислениях и с использованием SHMT

Запуск на импровизированной гетерогенной платформе пакета SHMT с использованием стандартных приложений для тестирования показал, что при наиболее эффективной политике фреймворк QAWS показывает увеличение скорости вычислений в 1,95 раза и значительное сокращение потребления — на 51 % по сравнению с базовым методом распределения вычислений. Если масштабировать этот подход для использования в составе ЦОД, то выигрыш обещает оказаться колоссальным и при этом всё «железо» останется прежним — менять ничего не придётся. Предложенное решение пока не готово к внедрению, но наверняка без труда найдёт заинтересованных в этом лиц.

Apple представила фреймворк MLX для разработки ИИ под компьютеры Mac

Apple объявила о выходе платформы MLX (ML Explore), предназначенной для разработки систем искусственного интеллекта, которые будут запускаться на компьютерах с её собственными процессорами Apple Silicon. Все необходимые компоненты доступны на GitHub.

 Источник изображения: apple.com

Источник изображения: apple.com

Цель проекта — упростить обучение и развёртывание моделей ИИ для исследователей, работающих на компьютерах Apple. Инструмент ориентирован не на потребителя, а на разработчиков, у которых теперь появилась мощная среда — есть похожие друг на друга API Python и API C++; поддерживается унифицированная память, то есть массивы данных находятся в общей памяти, и операции могут выполняться на центральном или графическом процессоре без копирования.

Apple также представила набор примеров того, на что способен фреймворк MLX:

  • обучение языковой модели — трансформера и его настройка с помощью LoRA;
  • генерация текста с помощью языковых моделей LLaMA и Mistral;
  • генерация изображений с помощью Stable Diffusion;
  • распознавание речи с помощью Whisper.

Apple осознала потребность в открытых и простых средах разработки систем машинного обучения — они позволят стимулировать дальнейшую работу в этой области. Важно, что MLX работает на чипах Apple, а они теперь используются во всех её продуктах, включая Mac, iPhone и iPad. Фреймворк задействует ресурсы центрального и графического процессоров, помогая добиться достаточно высокой производительности — возможно, в перспективе можно будет подключать ИИ-ускоритель Neural Engine, который также есть на этих чипах.


window-new
Soft
Hard
Тренды 🔥
Бизнес раскритиковал идею введения платного доступа к госсервисам для юрлиц 5 ч.
Объявлена дата выхода Little Nightmares 3 — новый трейлер, 11 минут геймплея и предзаказ с приятным сюрпризом 5 ч.
«Если я говорю, что напишу, то сделаю это, в отличие от Джорджа Мартина»: Анджей Сапковский пообещал фанатам «Ведьмака» новые книги 6 ч.
Российская гиперконвергентная платформа vStack HCP получила крупное обновление 8 ч.
Продажи Rematch от создателей Sifu превысили миллион копий — раскрыта статистика игроков 8 ч.
Для Warhammer 40,000: Rogue Trader вышло сюжетное дополнение Lex Imperialis и большой патч 1.4, а в работе ещё более крупное обновление 9 ч.
Anthropic выиграла суд у издателей: обучать ИИ на купленных книгах законно, на пиратских — нет 9 ч.
Xbox скоро настигнет новая волна массовых увольнений — Microsoft проводит реорганизацию 10 ч.
Путин подписал закон о создании национального мессенджера 10 ч.
Новый геймплейный трейлер раскрыл дату выхода перезапуска Painkiller — в российском Steam открыт предзаказ 11 ч.
Fujitsu считает важным появление в Японии контрактного производителя передовых чипов Rapidus 3 мин.
Intel запустила обещанную волну увольнений — первыми под сокращение попали инженеры в Калифорнии 3 ч.
Gigabyte представила три версии GeForce RTX 5050, включая низкопрофильную — все с разгоном 3 ч.
Стараниями Китая мировые поставки носимых устройств подскочили на 10,5 % в первом квартале 3 ч.
Новая статья: Разрубить EUV-узел 4 ч.
MSI представила компактную GeForce RTX 5050 Shadow 2X OC с разгоном 5 ч.
Бизнес США единодушно предупредил Трампа: пошлины на чипы в 25 % обернутся хаосом 5 ч.
Смарт-очки будущего не обожгут голову: xMEMS разработала для них сверхтонкий кулер без вентиляторов и шума 7 ч.
Google представила ИИ для роботов, который сможет работать без интернета и завязывать шнурки 8 ч.
Meta выпустила VR-гарнитуру Quest 3S Xbox Edition с особым дизайном и расширенной комплектацией за $400 9 ч.