Microsoft восстановила все облачные сервисы после сбоя в сети

В мире 29 Январь 2023

Microsoft Corp заявила в среду, что восстановила все свои облачные сервисы после того, как из-за сбоя в сети была отключена облачная платформа Azure вместе с такими сервисами, как Teams и Outlook, которыми пользуются миллионы людей по всему миру, — пишет Reuters.

Страница состояния Azure показала, что службы были затронуты в Северной и Южной Америке, Европе, Азиатско-Тихоокеанском регионе, на Ближнем Востоке и в Африке. Не пострадали только сервисы в Китае и его платформа для правительств. К позднему утру Azure заявила, что большинство клиентов должны были увидеть возобновление работы служб после полного восстановления глобальной сети Microsoft (WAN).

Выход из строя Azure, у которого, согласно данным Microsoft, 15 миллионов корпоративных клиентов и более 500 миллионов активных пользователей, может повлиять на несколько служб и создать эффект домино, поскольку почти все крупнейшие компании мира используют платформу. Microsoft этого не сделала. раскрыть количество пользователей, пострадавших от сбоя, но данные с веб-сайта отслеживания сбоев Downdetector показали тысячи инцидентов на разных континентах. Доля Azure на рынке облачных вычислений выросла до 30% в 2022 году, уступая Amazon AWS, согласно оценкам BofA. Глобальное исследование. Во время сбоя пользователи столкнулись с проблемами при обмене сообщениями, присоединении к звонкам или использовании любых функций приложения Teams. Многие пользователи отправились в Twitter, чтобы поделиться новостями о сбоях в работе службы, при этом #MicrosoftTeams стал популярным хэштегом на сайте социальной сети.

«Я думаю, что предстоит очень серьезная дискуссия об отказоустойчивости в коммуникациях и облачном пространстве, а также в критически важных приложениях», — сказал генеральный директор Symphony Брэд Леви.

Из [предварительного] обзора Microsoft после инцидента: мы определили, что изменение, внесенное в глобальную сеть Microsoft (WAN), повлияло на подключение между клиентами в Интернете к Azure, подключение между регионами, а также на подключение между предприятиями через ExpressRoute.

В рамках запланированного изменения для обновления IP-адреса на маршрутизаторе WAN команда, данная маршрутизатору, заставляла его отправлять сообщения всем другим маршрутизаторам в глобальной сети, в результате чего все они пересчитывали свои таблицы смежности и переадресации. Во время этого процесса пересчета маршрутизаторы не могли правильно пересылать проходящие через них пакеты. Команда, вызвавшая проблему, ведет себя по-разному на разных сетевых устройствах, и команда не была проверена с использованием нашего полного процесса квалификации на маршрутизаторе, на котором она была выполнена.

Из-за воздействия WAN наши автоматизированные системы поддержания работоспособности WAN были приостановлены, в том числе системы выявления и удаления неработоспособных устройств, а также система управления трафиком для оптимизации потока данных по сети. Из-за паузы в этих системах на некоторых путях в сети наблюдалось увеличение потери пакетов с 09:35 UTC до тех пор, пока эти системы не были перезапущены вручную, что восстановило оптимальные условия работы глобальной сети. Это восстановление было завершено в 12:43 UTC.