Сегодня 17 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Intel привлекла ИИ к обнаружению ошибок у чипов в ЦОД

На Международном симпозиуме по физике надёжности (International Reliability Physics Symposium — IRPS) инженеры Intel описали метод, который с помощью обучения искусственного интеллекта с подкреплением помогает выявлять скрытые ошибки в работе процессоров. В перспективе это позволит системно повысить их надёжность.

 Источник изображений: Rubaitul Azad / unsplash.com

Источник изображений: Rubaitul Azad / unsplash.com

Когда в центре обработки данных (ЦОД) один из узлов допускает ошибку в вычислениях, оператор может либо вывести его из эксплуатации и заменить, либо перевести в сегмент с менее приоритетными вычислениями. Но гораздо лучше было бы обнаруживать ошибки раньше — в идеале ещё до того, как чип попадёт в систему, когда ещё возможно внести изменения в конструкцию или производственный процесс, чтобы предотвратить их появление в будущем.

Причин возникновения ошибок может быть множество — исследователи Intel привели обширный список, и в большинстве случаев они восходят к чрезвычайно малым отклонениям в производстве. Даже если каждый из миллиардов транзисторов на чипе работоспособен, они не полностью идентичны: к ошибке могут привести мельчайшие особенности реакции отдельных транзисторов на изменения температуры, напряжения или частоты.

Чаще всего такие нюансы проявляются при работе большого количества процессоров в масштабных ЦОД, где наблюдаются высокие темпы вычислений и используется огромное количество кремниевых компонентов. На ноутбуке такие ошибки практически незаметны. В некоторых случаях сбои могут возникнуть лишь спустя месяцы после установки процессора в систему. Небольшие изменения в свойствах транзисторов со временем приводят к их деградации. В одном из примеров речь идёт об увеличении электрического сопротивления: изначально транзистор функционировал корректно и проходил стандартные тесты на короткое замыкание, но со временем его сопротивление выросло, вызвав сбой.

 Источник изображений: Rubaitul Azad / unsplash.com

Предложенная Intel технология основана на уже известных методах выявления скрытых ошибок — так называемых тестах Eigen. Эти тесты предполагают, что чип многократно решает сложные математические задачи в течение определённого времени, и скрытые ошибки постепенно проявляются. Задачи включают операции с матрицами различных размеров, заполненных случайными данными. Тестов Eigen очень много, и прохождение всех заняло бы слишком много времени, поэтому производители чипов используют выборочный подход, формируя управляемые наборы — это экономит время, но не всегда эффективно в выявлении ошибок.

Инженеры Intel внедрили технологию обучения с подкреплением, которая помогла создать более эффективные тесты для процессоров Xeon, выполняющих умножение матриц с помощью инструкций fused multiply-add (FMA). Выполнение таких инструкций задействует физически значительную площадь чипа, делая его более уязвимым к скрытым дефектам: больше кремния — больше потенциальных проблем. Дефекты в этих областях могут генерировать электромагнитные поля, влияющие на другие части системы. Для экономии энергии режим FMA отключается, когда не используется, и при тестировании многократно включается и выключается, что повышает шансы выявления скрытых дефектов, которые не проявляются в стандартных тестах.

На каждом этапе программа обучения с подкреплением выбирает для потенциально дефектного чипа различные тесты. Каждая обнаруженная ошибка воспринимается системой ИИ как «награда», и со временем алгоритм обучается выбирать такие тесты, при которых вероятность выявления ошибок максимальна. Примерно после 500 циклов тестирования алгоритм определил, какой набор тестов Eigen наиболее эффективен для быстрой идентификации ошибок при выполнении инструкций FMA.

На практике эта технология оказалась в пять раз эффективнее случайного подбора тестов Eigen. Поскольку сами тесты доступны с открытым исходным кодом, другие исследователи также могут использовать обучение с подкреплением для создания собственных наборов тестов. Учёные Intel уже пошли дальше: они планируют использовать полученные данные для ускоренного выявления первопричин скрытых ошибок. Их цель — понять, существуют ли предвестники, которые могут заблаговременно предупредить о возможных сбоях, и можно ли изменить конструкцию или производственный процесс чипов, чтобы управлять этими рисками.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
OpenAI станет одним из основных пользователей крупного ЦОД в ОАЭ 39 мин.
Microsoft отделила Teams от Office в попытке увернуться от штрафа в ЕС 7 ч.
Новая статья: «Приключения Капитана Блада» — ахой из прошлого. Рецензия 8 ч.
«Мы делаем всё возможное»: создатели Stellar Blade отреагировали на недоступность игры в 130 странах и развеяли опасения фанатов насчёт Denuvo 9 ч.
В ChatGPT появился ИИ-помощник программиста Codex 10 ч.
В Fortnite появилась ИИ-версия Дарта Вейдера с голосом Джеймса Эрла Джонса — с владыкой ситхов можно поговорить 10 ч.
«Мы не пытаемся стрясти с потребителя всё до последней копейки»: глава Take-Two объяснил, почему Mafia: The Old Country стоит $50 11 ч.
Warhammer 40,000: Speed Freeks скоро вырвется из раннего доступа Steam и станет платной — это боевая гонка про культ помешанных на скорости орков 12 ч.
Хакеры похитили данные клиентов Coinbase, подкупив техподдержку — это может стоить криптобирже до $400 млн 13 ч.
Продажи GTA V за последние три месяца превысили 5 млн копий, хотя игре уже почти 12 лет 13 ч.
Nvidia возобновит поставки ускорителей Hopper в Китай в следующем квартале и позже адаптирует Blackwell для работы с GDDR7 2 мин.
ASRock выпустит оверклокерскую плату X870E Taichi OC Formula для экстремального разгона Ryzen 9000 11 ч.
Ровер Perseverance впервые зафиксировал полярное сияние на Марсе — как на Земле 11 ч.
Acer представила 6K-монитор ProCreator PE320QXT и ряд моделей попроще 12 ч.
Intel теряет рынки настольных и серверных процессоров — AMD Ryzen X3D и EPYC пользуются повышенным спросом 12 ч.
Аcer показала смарт-кольцо и наушники со встроенным двухсторонним переводчиком 12 ч.
Обойдёмся без Microsoft: OpenAI заключила сделку с CoreWeave на $4 млрд 13 ч.
Niva — для ПК, Lumex — для смартфонов, Neoverse — для серверов: Arm обновила номенклатуру своих платформ 13 ч.
Евросоюз разработает новые лимиты потребления воды дата-центрами 14 ч.
Acer представила умные геймерские мониторы Nitro GA321QK P и GA341CUR W0 со встроенным Google TV 14 ч.