Wie bleibt man cool, wenn das Produktionssystem ausfällt? [geschlossen]

26

Dies ist den meisten von uns passiert ...

Du kommst eines Tages zur Arbeit. Alles scheint normal zu sein - die Sonne scheint, Vögel zwitschern, aber Sie bemerken auf dem Weg zur Arbeit ein paar seltsame Dinge, die Sie an die Déjà-Vu-Katze in der Matrix erinnern.

Sie kommen ins Büro und es klingeln viele Telefone - aber es könnte sein, dass sie gerade eine neue Verkaufsförderung durchführen. Sie machen es sich bequem, wenn Sie eine dunkle Wolke über sich sehen.

Es dauert ein paar Momente, aber Sie erkennen, dass die Cloud Ihr Chef ist. Normalerweise überprüft er Sie jeden Morgen mit seinem "Soooo Peeeeter, wie wäre es mit diesen TCP / IP-Berichten?" routinemäßig, aber heute hat er alles über übliche Manieren vergessen und ist grob in Ihren persönlichen Raum eingedrungen. Kein "Guten Morgen", nur ein bisschen sabbern, grunzen und fluchen. Er erinnert Sie ein wenig an einen Neandertaler, der versucht, sich von einem Cyber-Tiger, Angst und Panik zu befreien, die alle in einem engen Ball zusammengedrückt sind. Sie versuchen, die neue Sprache zu entziffern, die er seit gestern erstellt hat, und Sie beginnen zu verstehen, dass über Nacht etwas Schlimmes passiert ist - das Produktionssystem ist ausgefallen.

Jetzt wird Ihr System normalerweise von Kunden während der regulären Arbeitszeit von 9 bis 5 Uhr benutzt, aber aus irgendeinem Grund haben Sie keine Warnungen für Ihren Piepser erhalten (für Personen unter 30 Jahren - ein Piepser war wie ein Mobiltelefon, das nur klingeln und klingeln konnte) sagen Sie, wer Sie piepte). Sie müssen daran denken, es beim nächsten Mal aufzuladen.

Es ist also jetzt 8:45 Uhr, und das System MUSS um 9 Uhr aufstehen. Alle 10 Sekunden stößt Ihr Chef einen weiteren Fluch aus, der Ihnen mitteilt, dass ein anderer Kunde Probleme hat, in das System zu gelangen. Außerdem schweben jetzt mehrere Kundenbetreuer über Ihrem Chef und versuchen, ihm klar zu machen, wie sehr Kunden WIRKLICH LEIDEN.

Jeder ist darauf angewiesen, dass Sie das System so schnell wie möglich in Betrieb nehmen, und behindert gleichzeitig Ihren Fortschritt, indem er Sie ständig ablenkt.

Wie bleibt man in einer solchen Situation cool?

Mag20
quelle
34
Erster Schritt: Verfassen Sie einen Beitrag mit 300 Wörtern in programmers.stackexchange.
Kubi
8
Ich sage nicht, dass es gerade passiert. Warten Sie, lassen Sie mich
nachsehen
1
Ist dies ein Problem, das nur für Entwickler gilt? Wenn etwas, für das Sie verantwortlich sind, nicht funktioniert, müssen Sie in der Lage sein, mit dem Druck umzugehen, unabhängig davon, was dieses "Ding" ist.
ChrisF
1
Ich habe festgestellt, dass nach meiner Erfahrung nur sehr wenige große und kleine Softwarehäuser Disaster Recovery-Übungen durchführen. Ich würde das zu Ihrem Chef setzen. Wenn Sie einen Drill ausführen, wissen Sie, was Sie erwartet, und Sie wissen, dass Sie ein Gefühl für die Reaktionszeiten bekommen. Sie können auch bewerten, ob einer der Prozesse automatisiert werden kann. Was passiert, wenn Sie die Energie verlieren? Was passiert, wenn im Büro ein Brand entsteht? Haben Sie einen externen Standort? Werden Ihre Server im Haus oder extern usw. gehostet? Wirklich, Sie müssen sich darum kümmern, dass ein Kontinuitätsplan erstellt wird.
Desolate Planet
3
Dies liest sich wie der Beginn eines Eintrags auf TheDailyWTF!
Grant Palin

Antworten:

43

Bitten Sie in der Situation Ihren Chef, Ihnen zu helfen, indem Sie alle anderen Leute von Ihnen fernhalten (was ihm etwas gibt, das er woanders tun kann).

Bitten Sie Ihren Chef, wenn Sie es wieder in Betrieb nehmen, um eine Besprechung, um zu bewerten und Verfahren festzulegen, um zu verhindern, dass dies erneut geschieht.


quelle
1
+1. Disaster Recovery-Übungen sind eine gute Methode, um Reaktionen und Reaktionszeiten zu messen. Schade, dass ich nicht genug davon gesehen habe.
Desolate Planet
@DP yah, aber wir können das nicht tun, weil es bedeuten würde, dass die Leute und die Ausrüstung für tatsächliche Notfälle nicht verfügbar sind, während die Übung läuft (ja, ich habe dieses Argument mehr als einmal gehört). Wenn es genügend Leute und Ausrüstung gäbe, könnte man natürlich ein Team an einem Set trainieren, während das andere im Dienst ist ...
am
@jwenting klingt wie das Speichern des Feueralarms.
9

Das erste, was zu tun ist, ist, die Ablenkungen so höflich wie möglich zu beseitigen. Niemand kann mit jemandem zusammenarbeiten, der Ihnen ins Ohr geht, wie schlimm es für Ihre Kunden ist. Dies ist natürlich einfacher gesagt als getan, wenn Ihr Chef ein Wahnsinniger ist, aber wenn dies der Fall ist, sollten Sie sich trotzdem überlegen, einen anderen Job zu finden.

Machen Sie dann eine schnelle Einschätzung des tatsächlichen Schadens, den der Fehler verursacht, und wie (wenn überhaupt) er schnell gemildert werden kann. Mit ein wenig Übung können Sie auch schnell die Protokolldateien überprüfen, die Sie benötigen, um einen Aktionsplan zu erstellen.

Wenn das Problem komplex ist, konzentrieren Sie sich auf den schwerwiegendsten Teil. Denken Sie zwei oder drei Schritte voraus, bevor Sie in Aktion treten. Stellen Sie außerdem sicher, dass Sie wissen, wie Sie einen Plan beenden können, bevor Sie handeln.

Und das Wichtigste: Keine Panik!

biziclop
quelle
7

Solche Situationen sind in industriellen Steuerungssystemen häufig. Die Produktionslinie fällt mitten in der Nacht aus, das Unternehmen verliert in der Regel Hunderte oder sogar Tausende von Dollar pro Minute und sucht Sie, um das Problem zu beheben. Sie handhaben es so:

  1. Erklären Sie ihnen, was Sie wissen
  2. Erklären Sie, was Sie nicht wissen (aber wissen müssen, um das Problem zu lösen)
  3. Erklären Sie, wie Sie herausfinden, was Sie nicht wissen
  4. Geben Sie ihnen eine Schätzung, wie lange das dauern wird (verwenden Sie einen Bereich)
  5. Ignoriere alles um dich herum, während du dich darauf konzentrierst, deinen Plan zu befolgen
Scott Whitlock
quelle
6

Als Erstes müssen Sie wiederholt Disaster Recovery (ohne dass Ihnen jemand über die Schulter steht) geübt haben, damit Sie genau wissen, welche Schritte Sie unternehmen müssen, um das Problem zu diagnostizieren und zu beheben, ohne auf Fragen zu SO zurückgreifen zu müssen, um herauszufinden, was zu tun ist. Sobald Sie sich in Ihre Genesungsfähigkeiten sicher fühlen, sind Druck und Stress viel geringer.

Als nächstes müssen Sie die Leute aus Ihren Haaren holen, während Sie arbeiten. Ihr Chef möchte etwas, mit dem er zu seinem Chef gehen kann. Geben Sie ihnen einige Informationen darüber, was Sie vorhaben und wie lange es dauern kann, und berichten Sie dann regelmäßig über den Fortschritt, insbesondere wenn Sie etwas finden, was bedeutet, dass es erheblich länger dauert, als Sie es ihnen gesagt haben. Ja, Fortschrittsberichte brauchen Zeit, bis sie behoben sind, aber schwebende Bosse und Benutzer nehmen noch mehr Zeit in Anspruch. Ich gehe jedes Mal zu den Fortschrittsberichten. Sobald sie sicher sind, dass Sie sie auf dem Laufenden halten, vertrauen sie Ihnen, dass Sie Ihre Arbeit mehr erledigen und Sie mehr in Ruhe lassen.

Wenn Benutzer für einige Zeit blockiert werden, senden Sie ihnen eine E-Mail, wenn dies eine Option ist, oder veröffentlichen Sie einen Hinweis auf der Website, dass die Website wegen Wartungsarbeiten nicht verfügbar ist und sie es erneut versuchen können sollten. (Dies ist möglicherweise eine Aufgabe, die Sie Ihrem Chef übertragen können, um jemanden zu finden, der ihn aus Ihren Haaren hält.) Die Leute sind weniger verärgert darüber, sich nicht einloggen zu können, wenn sie wissen, dass jemand an dem Problem arbeitet. Wenn Probleme behoben sind und Sie eine E-Mail gesendet haben, senden Sie derselben Gruppe eine E-Mail, um mitzuteilen, dass sie behoben sind. Ich kann Ihnen nicht sagen, wie oft ich gesehen habe, dass Leute dies vergessen haben und Benutzer immer noch denken, dass sie sich nicht anmelden können, wenn sie können. Das Ziel ist nicht nur, die Dinge in Ordnung zu bringen, sondern auch, die Leute wieder zum Arbeiten mit dem System zu bewegen.

Atme tief durch (tiefe Atemzüge beruhigen) und tauche ein in das Problem. Es ist gut, die Dinge, die Sie tun müssen, irgendwo aufschreiben zu lassen, da Ihre Gehirnsynapsen im Notfall manchmal nicht so schnell wie normal Informationen abrufen. Sie wollen nicht wie ein Idiot aussehen, der murmelt: "Ich weiß, wir haben ein Protokoll, wo zum Teufel ist es?"

Wenn Sie einen Job haben, bei dem Sie Produktionssysteme unterstützen, ist es am besten, wenn Sie die Art von Person sind, die im Notfall im Allgemeinen gut reagiert. Ich bin mir nicht sicher, ob du das wirklich lernen kannst. Wenn jemand, der auf einem Pferd vor Ihnen reitet, heruntergefallen ist (ein nicht so zufälliges Beispiel aus meinem Leben) und blutend auf dem Boden gelegen hat, sind Sie der Typ, der mit offenem Mund da steht oder derjenige, der da steht Wer ruft den Krankenwagen, legt den Druckverband auf die Blutung und weist jemanden an, das Pferd zu fangen? Wenn Sie der erste Typ sind, ist dies möglicherweise nicht die richtige Arbeitsrichtung für Sie.

HLGEM
quelle
2

Sagen Sie ihnen, dies ist ein guter Grund, warum Sie einen Backup-Server benötigen, und damit meine ich einen zweiten Server, der mit dem primären Server identisch ist und auf den sofort umgeschaltet werden kann, wenn der erste Server ausfällt.

Goldesel
quelle
Ich habe gesehen, dass ein Sicherungsserver eingeschaltet ist und dasselbe Problem wie beim Primärserver aufgetreten ist. Es verdoppelte die Hardwarekosten, erhöhte die Konfigurationskosten und war eine reine Verschwendung von Kosten. Wenn Sie Hochverfügbarkeitsarbeiten ausführen, müssen Sie die Hardware auf das Problem abstimmen.
Scott Whitlock
Ein (extremes) Beispiel für ein Backup-System, das vom selben Fehler wie das primäre System betroffen ist, ist Ariane 5, Flug 501
Andre Holzner,
2

Es ist schon schlimm genug, wenn Sie von allen Seiten von Leuten umgeben sind, die sich über ein Problem ärgern, das Sie erstellt haben, obwohl es doppelt so schlimm ist, wenn es ein Problem ist, das Sie nicht erstellt haben. Es ist mir mehr als einmal passiert, dass der Client es nur schlecht konfiguriert hat, was bedeutet, dass der Fehler in der Kommunikation mit dem Client liegt (ob der Fehler der Client ist, der nicht zuhört, oder der Vermarkter, der es nicht gut erklärt, werden Sie nie erfahren).

Wie erklären Sie, dass sie es vermasselt haben? Nie eine leichte Aufgabe, besonders wenn Ihr Chef Ihnen den Hals runter atmet, weil er nichts besseres weiß, als anzunehmen, dass der Kunde immer Recht hat.

Wie bleibt man in einer solchen Situation cool? Erinnern Sie Ihren Chef höflich daran, dass dieses Problem umso schneller behoben wird, je schneller Sie zur Arbeit kommen.

Neil
quelle
1

Indem ich diese Veranstaltung als Gelegenheit sehe, zu zeigen, wie wertvoll ich (für das Unternehmen) bin, indem ich das Produktionssystem so schnell wie möglich wieder in Betrieb nehme (wenn nicht vor 9 Uhr morgens ;-)).

Natürlich in der Hoffnung, dass ich es gar nicht erst kaputt gemacht habe ;-)


quelle
1
  • sh_t passiert
  • Es muss eine Lösung für ein Problem geben
  • Wenn jemand auf der Welt die Lösung kennt, kann ich einer von ihnen sein
  • Wenn es keine Lösung gibt, hilft Panik nicht
  • wieder passiert sh_t
Oh ho
quelle
0

Fragen Sie auf jeden Fall Ihren Chef, dass Sie sich bei ihm melden, wenn das Problem behoben ist. In solchen Situationen werden jedoch in der Regel andere Personen vom Management dazu gebracht, die Angelegenheit so schnell wie möglich zu lösen und später mit der "betroffenen" Person zu töten. geschäftlich ist der Kunde in der Regel der König !!

Gaurav Sehgal
quelle
0

Solche Situationen motivieren mich einfach mehr, alles gründlich zu dokumentieren und einen gründlichen Plan für den Umgang mit jeder Art von Situation zu haben.

Auch wenn wir nicht jedes mögliche Problem vorhersagen können, können wir uns jedoch die Mühe machen, besser vorbereitet, organisiert und dokumentiert zu sein.

Crosenblum
quelle
1
Ich habe noch nie ein Produktionsproblem (dh einen Systemausfall) mithilfe der Dokumentation gelöst.
Marcie
1
Nein, aber wenn Sie nach Spezifikationen, Tabellendefinitionen oder Servereinstellungen suchen müssen, lohnt es sich, diese dokumentieren zu lassen.
Crosenblum
0

Ich habe 8 Jahre lang Wartungsarbeiten an B52G-Bombern durchgeführt und war 5 Minuten vor dem Dritten Weltkrieg alarmiert. Das bringt für mich alles in die richtige Perspektive.

Ein Down-Production-System ist wichtig, aber es wird nicht Millionen oder Milliarden von Menschen töten.

Finden Sie heraus, was nicht stimmt, finden Sie die Ursache und beheben Sie sie. Stellen Sie eine klare Kommunikation mit den wichtigen Personen her und halten Sie sie auf dem Laufenden. Sagen Sie Ihrem Chef, was Sie tun, und wenn Sie ihn auf den neuesten Stand bringen können, können Sie verhindern, dass weiterhin Nachrichten und Konversationen mit dem Titel "Ist es schon behoben?"

Machen Sie eine Post-Mortem-Studie und finden Sie heraus, wie Sie die Auswirkungen solcher Vorfälle in Zukunft verhindern und begrenzen können.

Wenn Sie auf Abruf sind, ist es äußerst unprofessionell, einen leeren Akku in einem Mobiltelefon oder Piepser zu haben. Dies ist ein allgemeines Szenario, aber wenn dies einer Person passiert, die für mich arbeitet, würde es eine ernsthafte Diskussion geben, und wenn es wiederholt wird, würde sie nicht mehr für mich arbeiten. Ja, ich bin ein Hardass.

Jim C
quelle