«Яндекс»: недавний масштабный сбой в работе сервисов случился из-за сетевого оборудования

Читать в полной версии

Команда инженеров «Яндекса» поделилась результатами расследования инцидента недельной давности, нарушившего функционирование многочисленных интернет-сервисов компании.

Источник изображения: company.yandex.ru

Напомним, что масштабный сбой в работе облачных площадок «Яндекса» произошёл 6 февраля. Недоступными оказались «Почта», «Диск», «Маркет», «Карты», «Музыка» и другие сервисы. Основной пик пришёлся на период с 17:03 до 17:50 по московскому времени, при этом полностью устранить проблемы и восстановить функционирование всех ресурсов удалось только к 21:30.

Выяснилось, что главной причиной недоступности сервисов стал каскадный сбой в работе сетевого оборудования, спровоцированный выходом из строя одного из сетевых устройств — граничного маршрутизатора. Специалисты «Яндекса» воспроизвели сбой в лабораторных условиях и выявили в ОС маршрутизатора баг, оказавший ключевое влияние на развитие событий. Компания приняла меры, чтобы исключить подобные инциденты в будущем, и сообщила о проблеме в ПО производителю сетевого оборудования.

«Мы приняли ряд мер, которые не позволят подобному инциденту произойти вновь. Заменили отказавший маршрутизатор на полностью рабочий. Научились воспроизводить аварийную ситуацию в нашей лаборатории. В будущем она будет исправлена на уровне операционной системы производителя сетевого оборудования»,говорится в заявлении «Яндекса». Афишировать вендора проблемного сетевого оборудования в компании не стали.