Wir hatten in der vergangenen Woche einen ziemlich schwerwiegenden Ausfall, der verschiedene Services betraf, die uns aus unserer SLA bei Kunden herausgeholt haben. Nachdem alles geklärt ist, führe ich eine Obduktion durch.
Aus dieser Überprüfung möchte ich ein internes Dokument erstellen, das den Ausfall, seine Auswirkungen, unsere Reaktion und die Lösung beschreibt. Ich möchte ein Standardformular für die spätere Wiederverwendung ausarbeiten. Ich habe meine Gedanken unten angegeben, aber welche anderen Elemente sollten enthalten sein? Wenn dies ein sicherheitsrelevanter Vorfall wäre, was würden Sie hinzufügen?
- Zusammenfassung Zusammenfassung der Veranstaltung auf Executive-Ebene.
- Betroffene Dienste
- Auswirkungen Welche Auswirkungen hatten unsere Benutzer und SLAs? Gab es Kosten in US-Dollar, verpasste Transaktionen, verlorene Kunden usw.?
- Ausfalldauer Für jeden betroffenen Service, wenn Abweichungen aufgetreten sind
- Ursache Einschließlich primärer und sekundärer Ursachen
- Auflösung
- Zeitleiste der Ereignisse Benachrichtigungen, Kontakt mit externen Anbietern, Kundenbenachrichtigungen, Antworten usw.
- Probleme mit unserer Reaktion Ist die Reaktion auf den Ausfall nicht wie geplant verlaufen? Richtige Leute benachrichtigt? Sind die Lieferanten ihren vertraglichen Verpflichtungen nachgekommen?
- Vorbeugende Maßnahmen Wie können wir verhindern, dass dieser Ausfall erneut auftritt, oder seine Auswirkungen verringern?
- Erkennungsmethode Wie gut haben wir diesen Ausfall erkannt und wie verbessern wir die Erkennung in Zukunft?
- Änderungen, die bei zukünftigen Ausfallreaktionen vorgenommen werden müssen
Versuchen Sie, die Beiträge auf einen Punkt und eine Erklärung zu beschränken. Dieser Beitrag kann mit den Antworten aktualisiert werden, für die die meisten Stimmen abgegeben wurden.
Sieht gut aus. Ich würde nur Folgendes hinzufügen:
Auswirkungen / Konsequenzen : Was ist die Folge des Ausfalls - wer war betroffen, welche SLAs wurden verletzt (falls vorhanden), gab es Konsequenzen?
quelle
Betroffene Dienste und Ausfalldauer geben nur einen Teil der Schwere eines Ausfalls an. Sie möchten auch wissen, wie sich dies auf das Geschäft ausgewirkt hat.
Auswirkung : Welche Auswirkung hatte dies auf die Benutzer und wie wurde es wahrgenommen? Wie viel Geld hat uns das gekostet (fehlende SLA, verlorene Bestellungen etc.)?
quelle
Öffentliche & interne Veröffentlichung
Dies ist eher eine Entscheidung des Managements, aber Sie können angeben, was den Kunden darüber oder auf jeden Fall über Ihre Empfehlung mitgeteilt werden soll. In beiden Fällen müssen Sie sich vom Management abmelden, um den genauen Wortlaut der Kundenfreigabe zu erhalten, bevor Sie etwas freigeben.
Die öffentliche Veröffentlichung sollte in dieses Dokument einbezogen werden, damit jeder im Unternehmen weiß, was er den Kunden mitteilen darf.
quelle