Amazons Cloudausfall: Datenverluste und fehlerhafte Backups

PCLetzte Woche berichtete ich ja bereits über ein Gewitter, welches Amazons Clouddienste lahm gelegt haben soll.

Nun steht Amazons Abschlussbericht zu diesem Vorfall online und was Amazon dort berichtet ist schon ziemlich haarsträubend.

Transparente Firmenkommunikation

Eines gleich vorweg: Ich finde es wirklich klasse wie offen und transparent Amazon in diesem Fall vorgeht.

Da können sich viele eine Scheibe von abschneiden. Denn nicht jede Firma stellt solche Untersuchungsergebnisse für alle sichtbar ins Netz, schon gar nicht, wenn sie nicht sonderlich positiv für das eigene Unternehmen ausfallen, wie in diesem Fall. Hier findet Ihr die Originalergebnisse von Amazon.

Der Stromausfall und Datenverluste

Ursprünglich hatten die Betreiber angenommen, dass ein Blitzeinschlag Ursache des Stromausfalls sei, dies wurde in dem Bericht erst einmal widerrufen. Allerdings steht immer noch nicht fest, was denn die genaue Ursache war.

Auf jedenfall war es so, dass danach beim Anlaufen der Notstromgeneratoren eine SPS die Phasensynchronisation nicht mehr herstellen konnte (wahrscheinlich aufgrund eines Erdungsfehlers).

Daraus resultierend waren natürlich fast alle Cloud-Systeme in dieser Verfügbarkeitszone ohne Spannung und damit nicht mehr erreichbar.

Das Dumme war nur, dass der Management-Server dies nicht registrierte und weiterhin munter Anfragen für diese Zone annahm und diese damit ins Nirvana schickte, wodurch natürlich Daten vollkommen verloren gingen.

Fehlerhafte Backups

Aber das Schlimmste kommt noch: Denn viele der Datensicherungen sind ebenfalls korrupt.

Nach Amazons Empfehlung solle man zur Datensicherung der Cloud-Daten Snapshots nutzen. Ein Fehler in der Sicherungssoftware hat allerdings beim Löschen veralteter Snapshots ebenfalls Datenblöcke gelöscht, die auch für die neuen Snapshots benötigt werden. Die Folge kann man sich vorstellen: Die aktuellen Snapshots sind nicht mehr zu gebrauchen.

Amazon pocht auf seine garantierte Verfügbarkeit

Auch wenn Amazon mit kleinen Entschädigungen seinen Kunden entgegenkommen will (für kleine Zeiträume werden bestimmte Dienste nicht in Rechnung gestellt) und auch Konsequenzn bezüglich der Notstromversorgung angekündigt hat, so finde ich eines wirklich merkwürdig:

Amazon will den Vorfall nicht mit der garantierten Verfügbarkeit von 99,95 Prozent in Verbindung bringen. Schließlich ist in diesem Fall nur eine Verfügbarkeitszone ausgefallen. Die Garantie würde nur beim Ausfall von mindestens zwei betroffen sein.

Ich persönlich finde das ganz schon heftig. Schließlich interessiert mich als Kunde beim Thema Verfügbarkeit doch nur die eigene Verfügbarkeit und die von amerikanischen Kunden.

Aber da sieht man mal wieder, dass man immer auf die genaue Definition des Dienstleisters schauen muss, auch bei Begriffen wie Verfügbarkeit.

Was sagt Ihr dazu?

Comments
  1. Moritz
  2. André Wendt