На облачную инфраструктуру Amazon (AWS) завязана работа многих сервисов сторонних провайдеров, поэтому недавний масштабный сбой затронул функционирование тысяч сайтов, включая приложения типа Snapchat и Reddit. К вечеру понедельника работу инфраструктуры AWS, пострадавшую от сбоя, удалось восстановить, по словам представителей компании.

Источник изображения: AWS
При этом Amazon отмечает, что в работе некоторых сервисов сохраняются задержки, возникшие из-за накопившейся очереди на передачу информации в период, пока они не функционировали. Чтобы отложенные данные достигли своих получателей, потребуется ещё несколько часов. Сбой затронул работу инфраструктуры в разных странах мира. Пользователи на время утратили возможность оплачивать услуги и товары, бронировать билеты и общаться друг с другом через приложения для видеоконференцсвязи. В Великобритании перестали работать некоторые сервисы местных операторов связи и правительственные сайты. В США перестали работать облачные игровые сервисы и инфраструктура агрегаторов услуг такси. По некоторым оценкам, в результате сбоя пострадали не менее 4 млн человек и не менее тысячи компаний. Социальная сеть X, по заявлениям главы Signal Мередит Уиттэкер (Meredith Whittaker), тоже пострадала, но её владелец Илон Маск (Elon Musk) данную информацию опроверг.
По своим масштабам, как отмечает Reuters, данный сбой стал крупнейшим с прошлого года, когда история с CrowdStrike парализовала работу банков и аэропортов по всему миру и нарушила функционирование многих информационных сервисов. Это уже третий за последние пять лет случай участия вычислительного кластера AWS в штате Вирджиния в серьёзных инфраструктурных сбоях. Приложения из-за сбоя в системе DNS не могли найти необходимый сетевой адрес для обращения к облачным базам данным Amazon.
Причиной сбоя, как призналась AWS, стала некорректная работа подсистемы, отвечающей за мониторинг распределения сетевой нагрузки в серверной инфраструктуре компании. Уже к десяти часам вечера понедельника по GMT компания заявила, что все сервисы AWS вернулись к нормальному режиму работы. На отправку накопившихся в очереди данных потребовалось ещё несколько часов. Площадка в Вирджинии, на которой случился сбой, является старейшей и крупнейшей в облачной инфраструктуре AWS.
Источник: