Le rapport final sur l’interruption de service Azure du 18 novembre

MS-Azure_rgb_Blk_D.png-550x0Microsoft vient de publier le rapport final sur l’interruption de service survenue le 18 novembre pour sa plateforme Microsoft Azure.

Pour rappel, ce problème est survenu à la suite d’une mise à jour du service de stockage Azure afin d’en améliorer les performances. Bien que la mise à jour ait été testé pendant plusieurs semaines, elle a engendré un problème résultant en une boucle infini sur les frontends du stockage des blobs. Il est ainsi devenu impossible pour le service d’absorber le trafic et les services associés (machine virtuelle, sites web, visual studio online…) ont été impactés.

Les régions suivantes ont été affectées : Etats Unis, Europe, Asie, Japon.

Le résultat de l’investigation a montré deux erreurs opérationnelles :

  • La stratégie de déploiement à la volée de manière incrémentielle à travers les couches de production n’a pas été suivie.
  • Bien que la validation dans les environnements de test et de pré-production ait été faite contre Azure Table storage Front-Ends, le commutateur de configuration n’a pas été correctement activé pour Blob storage Front-Ends.

Après avoir découvert le problème, tous les changements de configuration ont été immédiatement arrêtés pour examiner l’écart avec l’outil de déploiement. Lorsque l’analyse a été terminée, Microsoft a publié une mise à jour de l’outil de déploiement pour faire respecter la stratégie de déploiement.

En résumé, Microsoft Azure avait une stratégie opérationnelle claire mais il y avait un écart dans l’outil de déploiement qui est utilisé pour prendre des décisions.

La plupart des machines virtuelles ont pu redémarrer en utilisant le mécanisme de recouverte automatique. Cependant certains problèmes ont été constatés pour quelques machines :

  1. Durant la restauration, certaines machines ont expérimenté un time-out dans le montage des disques.
  2. Des machines ont échoués durant le provisionnement et l’installation.
  3. Un petit pourcentage de machines virtuelles ont subi une erreur de programmation réseau.

Mutualiser mondialement les ressources est donc certes intéressant, mais implique une mondialisation des risques. Avec heureusement dans ce cas des moyens importants pour réagir.

C’est donc un rappel à l’ordre utile…

Publicités

Pas encore de commentaire... Lancez-vous!

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s