Учёные выяснили, что радиационный фон может влиять на ПЛИС, но защититься довольно просто

 

Влияние ионизирующего излучения (радиации) на электронику бесспорно, и является одной из причин широкого внедрения технологии коррекции ошибок. Но если с памятью и процессорами всё более или менее понятно, то существует класс микросхем, для которого этот вопрос был малоисследован, во всяком случае, до недавнего времени. Это программируемые логические схемы, FPGA.

Если обычный радиационный фон для единичных ПЛИС, очевидно, не представляет весомой угрозы, то что насчёт массивов из сотен тысяч работающих сообща микросхем такого типа? Вопрос не праздный ввиду роста популярности FPGA в качестве многофункциональных реконфигурируемых сопроцессоров в сфере HPC. Учёные из Университета Бригама Янга (Brigham Young University), штат Юта, США, дали ответ на этот вопрос.

 Пролетающая частица разряжает SRAM-ячейку. Источник: slideshare.net

Пролетающая частица разряжает SRAM-ячейку. Источник: slideshare.net

Полигоном стал ЦОД в Денвере, штат Колорадо, в котором одновременно работают до 100 тыс. ускорителей на базе ПЛИС. Сами эти микросхемы имеют т.н. «конфигурационную память», отвечающую за хранение реализованной в ПЛИС электронной схемы —  путей, соединений, функциональных блоков. Поддержки ECC она не имеет, и как отметил ведущий исследователь Эндрю Келлер (Andrew Keller), проходящее через эту область ионизирующее излучение может отключать от схемы целые элементы, поскольку под его воздействием меняются хранимые в ячейках памяти значения.

 Влияние ионизирующего излучения на конфигурационную память создаёт SDC. Источник: slideshare.net

Влияние ионизирующего излучения на конфигурационную память создаёт источник «постоянной ошибки». Источник: slideshare.net

В ЦОД масштаба от 100 тыс. FPGA изменение данных в конфигурационной памяти может происходить каждые полчаса, а незаметные повреждения данных (silent data corruption, SDC) накапливаться до 11 дней. Последнее представляет наибольшую угрозу, поскольку все эти дни ошибка накапливается — система всё ещё производит вычисления, но результаты могут быть неверны. Другая опасность — это полный выход ПЛИС из строя, но это заметят те, кто отвечает за работоспособность оборудования в ЦОД.

 FPGA бывают и в защищённом от радиации исполнении. Источник: militaryaerospace.com

FPGA бывают и в защищённом от радиации исполнении. Источник: militaryaerospace.com

Методы защиты, впрочем, довольно просты: механика коррекции ошибок Single Event Upsets (SEU) реализована во всех современных FPGA; есть также механизм периодической перезаписи конфигурации (scrubbing) в случае обнаружения ошибки, который может снизить вероятность повреждения данных в 3–22 раза. К сожалению, большая часть решений на базе FPGA последний механизм не задействует, хотя, как отметили исследователи, крупные гиперскейлеры пользуются им чаще.

Также предполагалось, что по мере освоения более тонких техпроцессов возможно учащение мультибитных ошибок, поскольку пролетающая частица может задеть не одну ячейку памяти, а сразу несколько. Однако эксперименты команды Келлера опровергают это предположение. По всей видимости, производители ПЛИС знают об этом эффекте и стараются защитить от него новые продукты. Существуют также FPGA в защищённом исполнении, которые, как правило, применяются в военной и аэрокосмической технике.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1066503
Система Orphus