Was ist Ihre Checkliste, wenn alles in die Luft geht?

40

Benutzer können nicht an ihre E-Mail-Adresse gelangen, der CEO kann nicht an die Startseite des Unternehmens gelangen, und Ihr Pager hat gerade einen "911" -Code abgesetzt. Was machst du, wenn alles in die Luft geht?

Jon Galloway
quelle

Antworten:

35

Die erste Antwort lautet: Bleib ruhig! Ich habe gelernt, dass der harte Weg, dass Panik oft die Dinge nur noch schlimmer macht. Sobald dies erreicht ist, ist das nächste, um festzustellen, was das Problem ist. Beschwerden von Benutzern und Managern werden von allen Seiten auf Sie zukommen und Ihnen sagen, was SIE nicht können, aber was nicht das Problem ist.

Sobald Sie das Problem erkannt haben, können Sie mit dem Plan zur Behebung beginnen und Ihren verärgerten Benutzern einen Zeitrahmen geben!

Sam Cogan
quelle
3
Dies ist ein reaktiver Plan. Für jeden kritischen Geschäftsprozess ist bereits ein echter Disaster Recovery-Plan geschrieben und getestet.
Spoulson
3
spaulson sicher: aber das erste, was zu tun ist, ist herauszufinden, ob Sie den Plan aktivieren müssen oder ob das Umlegen des Leistungsschalters alles reparieren wird.
pjz
1
Das ist eigentlich das Beste, PERFEKTE POST! Nachdem Sie in der Lage sein müssen, allen Druck auf Ihrem Rücken zu halten, weil, wie in den obigen Kommentaren gesagt, jeder in Ihr Büro eilen wird, um Ihnen zu sagen, dass er gehen kann, wo er will. Tatsächlich sind Benutzer in diesen Momenten die meiste Zeit sehr egoistisch und sie wollen gar nichts verstehen, sie wollen nur, dass IHRE Dinge funktionieren und sie kümmern sich nicht um den Rest ... Also stimme ich Ihrem Beitrag vollkommen zu !
Marc-Andre R.
+1 zur Unterscheidung "des Problems" von den Symptomen.
bmb
59

Bleib ruhig

Nicht ausflippen. Atmen! (Vom Zwerchfell aus hilft es.) Wenn Sie Meditation studiert haben, kann das auch helfen.

Wenn Ihr Körper extremem Stress ausgesetzt ist, wird er in einen Flucht- oder Kampfmodus versetzt, da er denkt, dass er sich in einer Situation befindet, in der es um Leben oder Tod geht. Zu diesem Zeitpunkt pumpt Ihr Körper tatsächlich weniger Blut in einige Teile Ihres Gehirns, wodurch Funktionen wie das Denken beeinträchtigt werden. Dies senkt effektiv Ihren IQ, da der Instinkt anstatt der Rationalität beginnt, Ihre Gehirnfunktionen zu dominieren. Wenn Sie jemals in einem hitzigen Streit waren oder Zeuge eines solchen Streits geworden sind, können Sie diese Symptome erkennen, wenn die Gefühle der Menschen aufflammen und die Vernunft Urlaub macht. Später, wenn die Menschen die Chance haben, sich abzukühlen, werden sie eher akzeptieren, einen Fehler gemacht zu haben oder sich geirrt zu haben, und sind eher in der Lage, die andere Seite zu sehen, aber in der Hitze des Augenblicks weniger.

Wenn Sie Ihre Gelassenheit bewahren und Ihren Verstand behalten, bleibt Ihr Gehirn voll funktionsfähig und Sie treffen rationale Entscheidungen auf der Grundlage von Beweisen und Gründen, nicht von Emotionen und Ängsten.

Triage

Hierbei ist der effiziente Einsatz begrenzter Ressourcen zum Erreichen des größten Nutzens bei geringsten Kosten von größter Bedeutung. Treffen Sie so früh wie möglich die Entscheidung, welche Dinge JETZT repariert werden müssen, welche etwas warten können (Stunden, Tage) und welche auf unbestimmte Zeit warten können. Lernen Sie auch zu erkennen, wann etwas nicht mehr zu retten ist und sich nicht zu retten lohnt (z. B. die Hälfte des Routers ist geschmolzen, auch wenn es Ihr einziger ist, können Sie es nicht retten, kaufen Sie sich ein neues und holen Sie es nach Eile vor Ort oder finden Sie etwas, das es kann die Lücke vorübergehend füllen).

Situationsbewusstsein bewahren

Lassen Sie nicht zu, dass Ihre Aufmerksamkeit von einem interessanten Problem oder von etwas gefangen wird, das Sie noch nicht ganz verstehen. Konzentrieren Sie sich auf das Gesamtbild und darauf, dass die wichtigsten Dinge funktionieren.

Verwenden Sie die wissenschaftliche Methode

Bilden Sie eine Hypothese. Bestimmen Sie, wie Sie diese Hypothese testen würden. Sammeln Sie Daten, um die Hypothese zu testen. Suchen Sie auch nach nicht bestätigten Daten. Verfeinern Sie Ihre Hypothese und wiederholen Sie den Zyklus so oft, bis Sie genug Vertrauen in Ihre Hypothese haben, um Maßnahmen zu ergreifen.

Pragmatisch sein

Jetzt ist nicht die Zeit für ein Dogma. Es ist in Ordnung, hier und da ein paar Abkürzungen zu verwenden, um sich von einer Katastrophe zu erholen. Hierbei handelt es sich im Wesentlichen um technische Schulden. Katastrophales Scheitern bedeutet in vielen Unternehmen einen katastrophalen Umsatzverlust. Es ist besser, die Dinge zum Laufen zu bringen, selbst wenn sie auf einem wackeligen Fuß stehen, als sich zu verhalten und den Lebensunterhalt Ihres Unternehmens zu riskieren. Hier ist wie immer das Urteil überaus wichtig. Manchmal ist es sinnvoll, einen Box-Lüfter auf ein Server-Rack zu stellen, manchmal nicht.

Sich selbst versorgen

Wie lange arbeitest du schon an diesem Notfall? Wann haben Sie das letzte Mal etwas Wasser getrunken? Wann hast du das letzte Mal gegessen? Wie lange bist du schon wach? Brennen Sie sich nicht aus, nur weil es einen Notfall gibt, nehmen Sie sich die Zeit, um hydratisiert, gefüttert und ausgeruht zu bleiben (falls es sich um eine lange, mehrtägige Plackerei handelt).

Rekrutieren Sie Hilfe

Es gibt mit ziemlicher Sicherheit viele talentierte Leute in Ihrem Unternehmen, die motiviert und in der Lage sind, Hilfe zu leisten. Seien Sie vorsichtig, wenn zu viele Leute herumlaufen und sich gegenseitig Probleme bereiten. Seien Sie auch vorsichtig, wenn Sie Leute nerven, indem Sie sie durch einen "Feuerball" stecken. Finden Sie Leute, die bereits helfen möchten, bringen Sie sie dazu, an bestimmten Aufgaben zu arbeiten, und stellen Sie sicher, dass die Leute miteinander kommunizieren.

Kommunizieren

Kommunikation ist entscheidend. Nichts ist so beängstigend wie das Unbekannte. Wenn die Leute nichts anderes wissen, als dass etwas kaputt ist, ist eine leere Aussage, dass es in X Stunden wieder funktioniert, nur ein wenig beruhigend (noch weniger beruhigend, nachdem X Stunden vergangen sind und die Dinge immer noch kaputt sind). Der Druck im Spiel kann dazu führen, dass Sie zu optimistische WAG-Zeitschätzungen abgeben, aber dies ist der falsche Kurs. Sagen Sie nicht nur, dass Sie daran arbeiten. Sagen Sie nicht, dass die Dinge bis zur X-Zeit behoben sind. Seien Sie offen, zeigen Sie Ihren Prozess, beschreiben Sie Ihre Fortschritte und Ihre Rückschläge. Bieten Sie einen Einblick in das Problem, Ihren Prozess, um es aufzuspüren, und Ihren Plan, um Dinge zu reparieren (obwohl Sie die Leute nicht in Kleinigkeiten ertrinken lassen). Zeigen Sie, dass das Problem nicht zu lösen ist, zeigen Sie, dass die Dinge irgendwann richtig gemacht werden, zeigen Sie, dass es kompetente Leute gibt, die sich mit dem Problem befassen.

Keil
quelle
2
Sehr gut - ich würde auch Rekrutenhilfe hinzufügen , wenn möglich
Brent
@Brent ah ja, das wollte ich hinzufügen. Ich habe jedoch noch nicht den richtigen Wortlaut für diesen Abschnitt gefunden.
Wedge
24

Keine Panik.

Jauder Ho
quelle
4
In großen, freundlichen roten Buchstaben.
Spoike
1
Ich habe gehört, dass Pink eine beruhigende Farbe ist.
Sophie Alpert
11
Nehmen Sie ein Handtuch und hinterlassen Sie eine Nachricht mit dem Titel "Bis dann und vielen Dank für den Fisch".
Jauder Ho
1
Sie sagen, Taupe ist sehr beruhigend
Glenn Slaven
Es ist auf halbem Weg da, was die Abstimmung betrifft!
Andrew Grimm
22

Schritt 0. Vergewissern Sie sich, dass nicht Ihr Überwachungssystem fehlerhaft ist

Dave Cheney
quelle
LOL! Schön! Das passiert so oft: P
Marc-Andre R.
12

Melden Sie sich bei serverfault an

Phil Nash
quelle
11

Buchen Sie sofort einen Flug in ein Nichtauslieferungsland

Glenn Slaven
quelle
8

Überprüfen Sie zuerst die Grundlagen, es scheint albern, aber Dinge wie

  1. Ist der Server eingeschaltet? (wenn Sie extern hosten)
  2. Ist Ihr Hosting-Anbieter nicht erreichbar?

Ich weiß, dass viel Zeit damit verschwendet werden kann, nach einer Lösung zu suchen, wenn das Problem vorgelagert ist

Glenn Slaven
quelle
2
yep - wenn alles ausfällt - überprüfen Sie das Rechenzentrum - und deren Support-Foren. Wenn 30 Personen online sind, wenn normalerweise 3 Personen online sind, trifft es den Fan.
Alister Bulman
6

Ich pinge Sachen. Was danach passiert, hängt stark von den Ergebnissen des Pings ab.

Dylan Beattie
quelle
Habe diese Methode heute benutzt. Viele PCs konnten nicht drucken. Versucht, den Datenbankserver zu pingen, OK. Versucht, Druckerlizenzserver anzupingen, keine Antwort. Ergebnis = Serverfehler!
Betrüger
Netter Punkt;) Ich mache das viele Male am Tag, bevor ich etwas anderes mache. Das spart so viel Zeit: P
Marc-Andre R.
4

Beschuldige das Netzwerk.

(es ist ein Witz!)

Kerl
quelle
3

RTFLF - Lesen Sie die Frakkin-Protokolldatei

(Ich kann das nicht würdigen, alles geht an Scott Hanselman. )

Dillie-O
quelle
Dies sollte nicht der erste Schritt sein, aber es muss einer davon sein.
Marc-Andre R.
2

Versuche noch nichts zu reparieren.

Stellen Sie sicher, dass Sie genau wissen, was das eigentliche, zugrunde liegende Problem ist. Jetzt fangen wir an, Dinge zu reparieren. Wenn mehrere Dinge zu beheben sind, überlegen Sie sorgfältig, welche Dinge sich verzögern können (hoffentlich zumindest bis zum nächsten Arbeitstag!) Und welche jetzt unbedingt behoben werden müssen.

Vor allem aber: Wenn alles funktioniert, fragen Sie, warum "alles in die Luft gesprengt" hat. Was werden Sie tun, um dies zu verhindern? Gibt es irgendwelche Schritte, die die Lösung einfacher , wenn es würde nicht wieder passieren?

Stewart
quelle
1

Lassen Sie die Leute wissen, dass Sie dabei sind und geben Sie ihnen, wenn möglich, eine Schätzung, wann die Dinge wieder normal werden.

Was die eigentliche Fehlerbehebung betrifft, hängt dies offensichtlich davon ab, was falsch ist. Normalerweise behalte ich eine Sammlung von "Check Status" -Skripten für verschiedene Dienste.

Brian Rasmussen
quelle
Warum wurde das heruntergekommen? Es scheint mir ein gültiger Punkt zu sein.
Adriano Varoli Piazza
Dies ist ein ausgezeichneter Punkt. Prävention ist der Schlüssel, um große Katastrophen zu vermeiden;)
Marc-Andre R.
1

Überprüfen Sie die Verkabelung! Ich habe Stunden damit verloren, andere Sachen zu überprüfen, als ein einfacher Eth0-Kabeltausch das Problem gelöst hätte ...

Adriano Varoli Piazza
quelle
Eigentlich stirbt ein Kabel nicht grundlos. Wenn es nicht gut gestapelt, gewickelt oder auf andere Weise geschützt ist und jeder damit spielen kann, ist es wahrscheinlich, dass ein Kabel bricht. Ansonsten gibt es keinen Grund.
Marc-Andre R.
0

Sie sollten Notfallpläne haben.

Wichtige Systeme sollten entweder mit automatischem Failover oder einem dokumentierten und getesteten Wiederherstellungsplan entworfen werden.

Je wichtiger das System, desto mehr Ausfallsicherheit müssen Sie einbauen und desto automatischer sollte es sein.

Wenn Sie keine haben, war es nicht wichtig, oder?

Kerl
quelle
0

Stellen Sie sicher, dass die Sicherung Ihres Lebenslaufs sicher ist :) Dann

Finde die Gemeinsamkeiten. Was haben alle betroffenen Systeme gemeinsam?

Finde heraus, was sich geändert hat. In Ihrer Organisation sollte ein formelles Änderungsmanagement stattfinden.

Wo ist der Neue ... wo ist der Chef ...? Hat einer von ihnen eine Abkürzung genommen? (es ist nur ein schneller Neustart des Servers, was könnte es möglicherweise schaden)

BIBD
quelle
0

Aus der Aussage geht hervor, dass es schwierig ist, bestimmte Maßnahmen zu treffen. Ihr erster Schritt basiert auf:

  • Wo bist du
  • Wie viele Informationen können Sie aus der Person herauspressen, die Sie kontaktiert hat?
  • Welche unmittelbaren Tools stehen Ihnen zur Fehlerbehebung (oder zur Informationssuche) zur Verfügung?
  • Ihr Wissen über die physischen und logischen Pfade Ihres Netzwerks
  • Wie viel Hilfe hast du (Teil eines Teams? Oder einsamer Ninja?)

Offensichtlich müssen Sie ruhig und aufmerksam über das vorliegende Problem sein. Ihre Erfahrung mit der Fehlerbehebung im Netzwerk hat Sie gelehrt, dass dies möglicherweise etwas Triviales ist, wie:

  • Ein nicht angeschlossenes Kabel
  • Eine unangekündigte Wartung (eine andere Technik, die Dinge repariert)
  • Ihr CEO reagiert zu sehr darauf, dass das Unternehmen völlig zum Scheitern verurteilt ist, nachdem die drahtlose Verbindung seines Laptops aufgrund des Mikrowellens einer Käsepizza unterbrochen wurde.

Allerdings könnte es auch etwas Ernstes sein in den Kategorien:

  • Physischer Transport (Konnektivität)
  • Hardware (Router \ Switch \ Server)
  • Speicher (unzugänglich \ gefährdet \ gelöscht)
  • Software (Service> Misconfigured \ Attacked \ offline)

Die Schlüsselkomponente ist, wie viel Sie über das Problem wissen. Was ist Ihr Bezugspunkt? (Aus welcher Perspektive ist das System ausgefallen?)

l0c0b0x
quelle
0

Überprüfen Sie DNS.

Cawflands
quelle
0

Fange einfach an und arbeite dich dem Absurden entgegen.

Leistung?

Ethernet?

Programm läuft?

...

Aliens?

Robert
quelle