Benutzer können nicht an ihre E-Mail-Adresse gelangen, der CEO kann nicht an die Startseite des Unternehmens gelangen, und Ihr Pager hat gerade einen "911" -Code abgesetzt. Was machst du, wenn alles in die Luft geht?
disaster-recovery
Jon Galloway
quelle
quelle
Bleib ruhig
Nicht ausflippen. Atmen! (Vom Zwerchfell aus hilft es.) Wenn Sie Meditation studiert haben, kann das auch helfen.
Wenn Ihr Körper extremem Stress ausgesetzt ist, wird er in einen Flucht- oder Kampfmodus versetzt, da er denkt, dass er sich in einer Situation befindet, in der es um Leben oder Tod geht. Zu diesem Zeitpunkt pumpt Ihr Körper tatsächlich weniger Blut in einige Teile Ihres Gehirns, wodurch Funktionen wie das Denken beeinträchtigt werden. Dies senkt effektiv Ihren IQ, da der Instinkt anstatt der Rationalität beginnt, Ihre Gehirnfunktionen zu dominieren. Wenn Sie jemals in einem hitzigen Streit waren oder Zeuge eines solchen Streits geworden sind, können Sie diese Symptome erkennen, wenn die Gefühle der Menschen aufflammen und die Vernunft Urlaub macht. Später, wenn die Menschen die Chance haben, sich abzukühlen, werden sie eher akzeptieren, einen Fehler gemacht zu haben oder sich geirrt zu haben, und sind eher in der Lage, die andere Seite zu sehen, aber in der Hitze des Augenblicks weniger.
Wenn Sie Ihre Gelassenheit bewahren und Ihren Verstand behalten, bleibt Ihr Gehirn voll funktionsfähig und Sie treffen rationale Entscheidungen auf der Grundlage von Beweisen und Gründen, nicht von Emotionen und Ängsten.
Triage
Hierbei ist der effiziente Einsatz begrenzter Ressourcen zum Erreichen des größten Nutzens bei geringsten Kosten von größter Bedeutung. Treffen Sie so früh wie möglich die Entscheidung, welche Dinge JETZT repariert werden müssen, welche etwas warten können (Stunden, Tage) und welche auf unbestimmte Zeit warten können. Lernen Sie auch zu erkennen, wann etwas nicht mehr zu retten ist und sich nicht zu retten lohnt (z. B. die Hälfte des Routers ist geschmolzen, auch wenn es Ihr einziger ist, können Sie es nicht retten, kaufen Sie sich ein neues und holen Sie es nach Eile vor Ort oder finden Sie etwas, das es kann die Lücke vorübergehend füllen).
Situationsbewusstsein bewahren
Lassen Sie nicht zu, dass Ihre Aufmerksamkeit von einem interessanten Problem oder von etwas gefangen wird, das Sie noch nicht ganz verstehen. Konzentrieren Sie sich auf das Gesamtbild und darauf, dass die wichtigsten Dinge funktionieren.
Verwenden Sie die wissenschaftliche Methode
Bilden Sie eine Hypothese. Bestimmen Sie, wie Sie diese Hypothese testen würden. Sammeln Sie Daten, um die Hypothese zu testen. Suchen Sie auch nach nicht bestätigten Daten. Verfeinern Sie Ihre Hypothese und wiederholen Sie den Zyklus so oft, bis Sie genug Vertrauen in Ihre Hypothese haben, um Maßnahmen zu ergreifen.
Pragmatisch sein
Jetzt ist nicht die Zeit für ein Dogma. Es ist in Ordnung, hier und da ein paar Abkürzungen zu verwenden, um sich von einer Katastrophe zu erholen. Hierbei handelt es sich im Wesentlichen um technische Schulden. Katastrophales Scheitern bedeutet in vielen Unternehmen einen katastrophalen Umsatzverlust. Es ist besser, die Dinge zum Laufen zu bringen, selbst wenn sie auf einem wackeligen Fuß stehen, als sich zu verhalten und den Lebensunterhalt Ihres Unternehmens zu riskieren. Hier ist wie immer das Urteil überaus wichtig. Manchmal ist es sinnvoll, einen Box-Lüfter auf ein Server-Rack zu stellen, manchmal nicht.
Sich selbst versorgen
Wie lange arbeitest du schon an diesem Notfall? Wann haben Sie das letzte Mal etwas Wasser getrunken? Wann hast du das letzte Mal gegessen? Wie lange bist du schon wach? Brennen Sie sich nicht aus, nur weil es einen Notfall gibt, nehmen Sie sich die Zeit, um hydratisiert, gefüttert und ausgeruht zu bleiben (falls es sich um eine lange, mehrtägige Plackerei handelt).
Rekrutieren Sie Hilfe
Es gibt mit ziemlicher Sicherheit viele talentierte Leute in Ihrem Unternehmen, die motiviert und in der Lage sind, Hilfe zu leisten. Seien Sie vorsichtig, wenn zu viele Leute herumlaufen und sich gegenseitig Probleme bereiten. Seien Sie auch vorsichtig, wenn Sie Leute nerven, indem Sie sie durch einen "Feuerball" stecken. Finden Sie Leute, die bereits helfen möchten, bringen Sie sie dazu, an bestimmten Aufgaben zu arbeiten, und stellen Sie sicher, dass die Leute miteinander kommunizieren.
Kommunizieren
Kommunikation ist entscheidend. Nichts ist so beängstigend wie das Unbekannte. Wenn die Leute nichts anderes wissen, als dass etwas kaputt ist, ist eine leere Aussage, dass es in X Stunden wieder funktioniert, nur ein wenig beruhigend (noch weniger beruhigend, nachdem X Stunden vergangen sind und die Dinge immer noch kaputt sind). Der Druck im Spiel kann dazu führen, dass Sie zu optimistische WAG-Zeitschätzungen abgeben, aber dies ist der falsche Kurs. Sagen Sie nicht nur, dass Sie daran arbeiten. Sagen Sie nicht, dass die Dinge bis zur X-Zeit behoben sind. Seien Sie offen, zeigen Sie Ihren Prozess, beschreiben Sie Ihre Fortschritte und Ihre Rückschläge. Bieten Sie einen Einblick in das Problem, Ihren Prozess, um es aufzuspüren, und Ihren Plan, um Dinge zu reparieren (obwohl Sie die Leute nicht in Kleinigkeiten ertrinken lassen). Zeigen Sie, dass das Problem nicht zu lösen ist, zeigen Sie, dass die Dinge irgendwann richtig gemacht werden, zeigen Sie, dass es kompetente Leute gibt, die sich mit dem Problem befassen.
quelle
Keine Panik.
quelle
Schritt 0. Vergewissern Sie sich, dass nicht Ihr Überwachungssystem fehlerhaft ist
quelle
Melden Sie sich bei serverfault an
quelle
Buchen Sie sofort einen Flug in ein Nichtauslieferungsland
quelle
Überprüfen Sie zuerst die Grundlagen, es scheint albern, aber Dinge wie
Ich weiß, dass viel Zeit damit verschwendet werden kann, nach einer Lösung zu suchen, wenn das Problem vorgelagert ist
quelle
Ich pinge Sachen. Was danach passiert, hängt stark von den Ergebnissen des Pings ab.
quelle
Entschuldigung, aber diese Frage ist in Lieblings-Sysadmin-Cartoon bereits perfekt beantwortet :
quelle
Beschuldige das Netzwerk.
(es ist ein Witz!)
quelle
RTFLF - Lesen Sie die Frakkin-Protokolldatei
(Ich kann das nicht würdigen, alles geht an Scott Hanselman. )
quelle
Versuche noch nichts zu reparieren.
Stellen Sie sicher, dass Sie genau wissen, was das eigentliche, zugrunde liegende Problem ist. Jetzt fangen wir an, Dinge zu reparieren. Wenn mehrere Dinge zu beheben sind, überlegen Sie sorgfältig, welche Dinge sich verzögern können (hoffentlich zumindest bis zum nächsten Arbeitstag!) Und welche jetzt unbedingt behoben werden müssen.
Vor allem aber: Wenn alles funktioniert, fragen Sie, warum "alles in die Luft gesprengt" hat. Was werden Sie tun, um dies zu verhindern? Gibt es irgendwelche Schritte, die die Lösung einfacher , wenn es würde nicht wieder passieren?
quelle
Lassen Sie die Leute wissen, dass Sie dabei sind und geben Sie ihnen, wenn möglich, eine Schätzung, wann die Dinge wieder normal werden.
Was die eigentliche Fehlerbehebung betrifft, hängt dies offensichtlich davon ab, was falsch ist. Normalerweise behalte ich eine Sammlung von "Check Status" -Skripten für verschiedene Dienste.
quelle
Überprüfen Sie die Verkabelung! Ich habe Stunden damit verloren, andere Sachen zu überprüfen, als ein einfacher Eth0-Kabeltausch das Problem gelöst hätte ...
quelle
Sie sollten Notfallpläne haben.
Wichtige Systeme sollten entweder mit automatischem Failover oder einem dokumentierten und getesteten Wiederherstellungsplan entworfen werden.
Je wichtiger das System, desto mehr Ausfallsicherheit müssen Sie einbauen und desto automatischer sollte es sein.
Wenn Sie keine haben, war es nicht wichtig, oder?
quelle
Stellen Sie sicher, dass die Sicherung Ihres Lebenslaufs sicher ist :) Dann
Finde die Gemeinsamkeiten. Was haben alle betroffenen Systeme gemeinsam?
Finde heraus, was sich geändert hat. In Ihrer Organisation sollte ein formelles Änderungsmanagement stattfinden.
Wo ist der Neue ... wo ist der Chef ...? Hat einer von ihnen eine Abkürzung genommen? (es ist nur ein schneller Neustart des Servers, was könnte es möglicherweise schaden)
quelle
Ich mag diese Fehlerbehebungsliste. Einfache Fehlerbehebungsanwendung behebt jetzt alles =)
quelle
Aus der Aussage geht hervor, dass es schwierig ist, bestimmte Maßnahmen zu treffen. Ihr erster Schritt basiert auf:
Offensichtlich müssen Sie ruhig und aufmerksam über das vorliegende Problem sein. Ihre Erfahrung mit der Fehlerbehebung im Netzwerk hat Sie gelehrt, dass dies möglicherweise etwas Triviales ist, wie:
Allerdings könnte es auch etwas Ernstes sein in den Kategorien:
Die Schlüsselkomponente ist, wie viel Sie über das Problem wissen. Was ist Ihr Bezugspunkt? (Aus welcher Perspektive ist das System ausgefallen?)
quelle
Überprüfen Sie DNS.
quelle
Fange einfach an und arbeite dich dem Absurden entgegen.
Leistung?
Ethernet?
Programm läuft?
...
Aliens?
quelle