Dokumentation eines Ausfalls für eine Post-Mortem-Überprüfung

14

Wir hatten in der vergangenen Woche einen ziemlich schwerwiegenden Ausfall, der verschiedene Services betraf, die uns aus unserer SLA bei Kunden herausgeholt haben. Nachdem alles geklärt ist, führe ich eine Obduktion durch.

Aus dieser Überprüfung möchte ich ein internes Dokument erstellen, das den Ausfall, seine Auswirkungen, unsere Reaktion und die Lösung beschreibt. Ich möchte ein Standardformular für die spätere Wiederverwendung ausarbeiten. Ich habe meine Gedanken unten angegeben, aber welche anderen Elemente sollten enthalten sein? Wenn dies ein sicherheitsrelevanter Vorfall wäre, was würden Sie hinzufügen?

  • Zusammenfassung Zusammenfassung der Veranstaltung auf Executive-Ebene.
  • Betroffene Dienste
  • Auswirkungen Welche Auswirkungen hatten unsere Benutzer und SLAs? Gab es Kosten in US-Dollar, verpasste Transaktionen, verlorene Kunden usw.?
  • Ausfalldauer Für jeden betroffenen Service, wenn Abweichungen aufgetreten sind
  • Ursache Einschließlich primärer und sekundärer Ursachen
  • Auflösung
  • Zeitleiste der Ereignisse Benachrichtigungen, Kontakt mit externen Anbietern, Kundenbenachrichtigungen, Antworten usw.
  • Probleme mit unserer Reaktion Ist die Reaktion auf den Ausfall nicht wie geplant verlaufen? Richtige Leute benachrichtigt? Sind die Lieferanten ihren vertraglichen Verpflichtungen nachgekommen?
  • Vorbeugende Maßnahmen Wie können wir verhindern, dass dieser Ausfall erneut auftritt, oder seine Auswirkungen verringern?
  • Erkennungsmethode Wie gut haben wir diesen Ausfall erkannt und wie verbessern wir die Erkennung in Zukunft?
  • Änderungen, die bei zukünftigen Ausfallreaktionen vorgenommen werden müssen

Versuchen Sie, die Beiträge auf einen Punkt und eine Erklärung zu beschränken. Dieser Beitrag kann mit den Antworten aktualisiert werden, für die die meisten Stimmen abgegeben wurden.

Doug Luxem
quelle

Antworten:

6

Obwohl dies in den zu ergreifenden vorbeugenden Maßnahmen behandelt werden könnte , würde ich einen Abschnitt mit Erkennungsmethoden empfehlen, mit dem Sie feststellen können, was die wahren Symptome sind und wie Sie das Problem (schneller) erkennen können, wenn es erneut auftritt, idealerweise mithilfe der Automatisierung.

JayC
quelle
Zum Wiki hinzugefügt
Doug Luxem
2

Sieht gut aus. Ich würde nur Folgendes hinzufügen:

Auswirkungen / Konsequenzen : Was ist die Folge des Ausfalls - wer war betroffen, welche SLAs wurden verletzt (falls vorhanden), gab es Konsequenzen?

Kennzeichen
quelle
1

Betroffene Dienste und Ausfalldauer geben nur einen Teil der Schwere eines Ausfalls an. Sie möchten auch wissen, wie sich dies auf das Geschäft ausgewirkt hat.

Auswirkung : Welche Auswirkung hatte dies auf die Benutzer und wie wurde es wahrgenommen? Wie viel Geld hat uns das gekostet (fehlende SLA, verlorene Bestellungen etc.)?

user8996
quelle
Ich mag die Unterscheidung zwischen betroffenen Diensten und Geschäftsauswirkungen, würde sie jedoch als "Geschäftsauswirkungen" und nicht nur als "Auswirkungen" einstufen (um eine Unterscheidung zwischen dieser und den betroffenen Diensten / Dauerinformationen zu treffen). Darüber hinaus wird es das Auge des Managements auf sich ziehen, das sich der geschäftlichen Auswirkungen bewusst sein muss, wenn nicht alle technischen Details der betroffenen Services ...
Milner,
1

Öffentliche & interne Veröffentlichung

Dies ist eher eine Entscheidung des Managements, aber Sie können angeben, was den Kunden darüber oder auf jeden Fall über Ihre Empfehlung mitgeteilt werden soll. In beiden Fällen müssen Sie sich vom Management abmelden, um den genauen Wortlaut der Kundenfreigabe zu erhalten, bevor Sie etwas freigeben.

Die öffentliche Veröffentlichung sollte in dieses Dokument einbezogen werden, damit jeder im Unternehmen weiß, was er den Kunden mitteilen darf.

SpaceManSpiff
quelle
Ich denke, dieses interne Dokument könnte verwendet werden, um eine externe Freigabe für Kunden zu generieren. Genau das, was den Kunden mitgeteilt wird, hängt von unseren Führungskräften und dem Marketing / der Kommunikation ab.
Doug Luxem