Schlimmster SysAdmin-Unfall [geschlossen]

8

Was war der schlimmste Unfall, an dem Sie beteiligt waren, gemäß der Frage nach dem besten Sysadmin-Unfall ? Im Gegensatz zur vorherigen Frage meine ich "schlimmste" im Sinne der meisten Systemschäden oder tatsächlichen Schäden für Menschen.

Ich fange mit meinem an:

Wir haben zwei entfernte Kabelschränke, die sich am Ende eines 100-Fuß-Korridors befinden, der ein Metallgitter für den Boden hat. Nachdem wir das Cat6-Kabel installiert hatten, säuberten die Bauunternehmer alle Trümmer, die durch das Gitter auf den 3 Fuß tiefer liegenden Beton fielen. Ein Mitarbeiter und ich betraten eines Tages den Korridor, um den Fortschritt zu überprüfen, waren jedoch abgelenkt und bemerkten nicht, dass ein Stück Gitter beiseite geschoben worden war. Mein Kumpel trat in die Luft und seine Brust schlug gegen die Stahlquerstange. Er war aufgewühlt und wund genug, um sich ein paar Tage frei zu nehmen, aber zum Glück hatte der Stahlträger abgerundete Kanten und die Größe der Öffnung war so groß, dass er seinen Kopf nicht hinein oder in den Boden darunter schlug.

Offensichtlich haben wir gelernt, dass Bereiche, in denen der Boden teilweise entfernt wird, markiert werden müssen.

Ward
quelle
1
Dies sollte auf Community-Wiki eingestellt werden
Joe
Siehe auch serverfault.com/questions/7902
3dinfluence

Antworten:

1

Stellen Sie sich vor, Sie leben während des Hurrikans Andrew in Südflorida (kurz vor dem 24x7-Wahn). Alle Ihre Server sind sicher in einem Gebäude eingeschlossen, in das Sie einen Ausweis benötigen, und in einem sichereren Bereich, in dem ein zusätzlicher Scan Ihres Ausweises erforderlich ist. Stellen Sie sich einen Trottel vor, bei dem keine tatsächlichen Griffe an den Türen benötigt wurden. Stellen Sie sich einen Vertrag über vier Millionen Dollar vor, der eine Lieferung erfordert. Der nächstgelegene Strom befindet sich 230 Meilen nördlich, das Gas ist knapp, gefährliche Straßen und ein Generator, der für 48 Stunden Strom ausgelegt ist. Lachen Sie, wenn Sie so wollen, über eine Ansammlung von Servern, die sich auf der Rückseite eines Lastwagens befinden und auf dem Mickey-Mouse-Turnpike stecken und aus Mangel an Benzin stehen geblieben sind. Lachen Sie, wenn Sie so wollen, dass es keine Entschuldigung dafür gibt, wie schlecht alles aus logistischer, systematischer und betrieblicher Sicht gelaufen ist.

ojblass
quelle
17
Uuuh, bitte verstehe das nicht falsch, aber ich habe keine Ahnung, was tatsächlich in der Geschichte passiert ist, wegen all der "Laugh Ifs" ...
Mark Henderson
1
Das ist lustig, ich mag den 48-Stunden-Generatorteil. Ein Ort, an dem ich einmal ausgecheckt habe, hatte 48 Stunden Kraftstoff vor Ort und weitere 14 Tage auf dem Versorgungshof. Sie besaßen einen Tankwagen, um den Generator nachzufüllen, sodass sie sich auf niemanden verlassen mussten. Sie waren auch ein Wasserkraftunternehmen.
SpaceManSpiff
Obwohl es keine Erzählung ist ... ist die ganze Geschichte oben.
Ojblass
Tankwagen ist eine kluge Idee. Letztes Jahr habe ich ein Rechenzentrum in Seattle besucht, in dem nur wenige Tage Dieselkraftstoff vor Ort waren. Ich war nicht beeindruckt: Nur einmal in ~ 40 Jahren wurde das Bussystem in Seattle für einen Tag stillgelegt, und dies war hauptsächlich darauf zurückzuführen, dass während eines großen Schneeereignisses keine Tanklastwagen an den Stützpunkten auftauchten, um Dieselkraftstoff zu liefern. Ich kann mir nicht vorstellen , dass ein großes Erdbeben, Überschwemmungen oder andere regionale Katastrophe verursachen würde Kraftstoff jeder sein mehr zur Verfügung als ein in einem Schneesturm.
Skyhawk
25

Als ich für Cisco arbeitete, bekam ich Kunden, die 30-Dollar-WLAN-Karten gekauft hatten und Chips spuckten, wenn ihr Treiber nicht installiert werden konnte, oder Leute mit dem billigsten, einfachsten Router, den Cisco hatte, der über Support-Probleme schwärmte und schwärmte.

Dies alles wurde eines Tages in einen Zusammenhang gebracht, als ich einen Anruf von einem der weltweit größten Kartenanbieter erhielt (denken Sie an Amex, Mastercard, Visa, Diners ... tatsächlich war es eine dieser Marken, ich weiß nicht, ob sie es sind würde mich freuen, wenn ich es erwähne). Ich war Front-Line-Support. Meine einzige Aufgabe bestand darin, das Szenario zu bewerten, zu bewerten und an die entsprechende Support-Abteilung weiterzuleiten. Dieser Fall war der einzige Priority One-Fall, den ich jemals durchgeführt habe.

Ein Mann von der Kartenfirma rief an und erklärte, dass die Verbindung zwischen den US-Mainframes an der Ost- und Westküste unterbrochen sei. Wenn ein Konto auf einem Mainframe erstellt wurde, wurde die Transaktion immer auf diesem Mainframe verarbeitet. Was in Ordnung war, wenn sich Ihr nächster Link immer in der Nähe dieses Mainframes befand. Wenn Sie jedoch an diesem Tag ein Konto auf dem Ostküstenserver hatten, sich aber an der Westküste befanden, wurde die Transaktion abgelehnt, da die Verbindung unterbrochen war.

Die Standardfrage bei der Schadensbewertung lautete: "Wie viel kostet dies Ihr Unternehmen?" Die Antwort, ruhig und gesammelt, war "Ungefähr eine Million Dollar alle 30 Sekunden".

Wenn Sie sich das nächste Mal versucht fühlen, den Kundensupport über Ihre 30-Dollar-WLAN-Karte zu schwärmen, wird dies wirklich in einen Zusammenhang gebracht.

(Es sollte beachtet werden, dass Cisco seine Verbindung innerhalb von 5 Minuten nach der Übertragung eingerichtet und ausgeführt hat.)

Mark Henderson
quelle
3
Das ist wahrscheinlich die einzige ehrliche Antwort auf diese Frage, die Sie jemals hören werden!
SpaceManSpiff
6
Das ist die schönste Art und Weise, wie ich jemals jemanden sagen hörte "Hör auf, dumme Fragen zu stellen und behebe es JETZT ". Besonders zum technischen Support.
Ernie
10

Alias-Befehle wie rm oder mv fügen häufig die Option '-i' hinzu, um Fehler zu vermeiden. Aber das ist vor einiger Zeit in meiner Firma passiert. Jemand hat diese Zeile in die .bashrc-Datei von root auf einem der Server eingefügt.

alias rm='rm -i'

Dann kopierte es die Zeile und ersetzte mv durch rm ... oder so dachte er:

alias rm='rm -i'
alias mv='rm -i'

Der Rest ist Geschichte :)

Nun, die Sache ist, dass bei der Beantwortung der Frage "Sind Sie sicher" "Entfernen" statt "Bewegen" lautete, aber dennoch ...

chmeee
quelle
lmao so sorry man ... der geschichtsbefehl würde dir nicht einmal helfen, das massive gift zu finden, das du für dich selbst ausgestoßen hast.
Ojblass
4

Wir haben bei einem großen Einzelhändler (über 1000 Filialen) ein riesiges Point-of-Sale-System installiert. Der zentrale Abfrageserver bestand ausschließlich aus benutzerdefiniertem HP-Unix-Code, und der Test für die Produktionsmigration wurde von einem einzigen Mitarbeiter durchgeführt - dem Sohn des IT-Direktors.

Dieser Typ verbrachte 7,95 Stunden seines Tages damit, Fantasy-Romane zu lesen, und die anderen paar Minuten damit, seinen Batch-Job auszuführen, um nächtliche Builds in die Produktion zu migrieren. Das System war 3 Tage nach dem Start in 150 Filialen (unser erster "echter" Rollout). Alles war festgelegt, und mein Team hatte gerade die letzten Codeteile getestet. Wir haben unsere Änderungen übernommen und unsere Bilder von der Entwicklung in den Test verschoben, um sie am nächsten Morgen vom Sohn des IT-Direktors abzuholen.

Ich komme um 8 Uhr morgens dort an und alles ist im Chaos. Es stellte sich heraus, dass der Sohn angewiesen worden war, nach dem Kopieren von Dateien in die Produktion in den Ordner ./changed zu gehen und "rm -rf *" einzugeben. Ja, jemand hat ihm das tatsächlich gesagt! Natürlich hat er dies versehentlich auf dem Produktions-Root-Laufwerk getan, auf dem sich auch unsere Transaktions-Polling-Datenbank befand (die zu diesem Zeitpunkt für Backups offline war, nur unser Glück).

Ergebnis: Unsere 16 Pilotgeschäfte mussten Kunden 2 Tage lang (in einigen Fällen buchstäblich) aus Zigarrenschachteln bedienen. Der Sohn des CIO wurde zum Server Watcher herabgestuft (er saß im eiskalten Serverraum und sollte auf rote Ampeln achten ... aber er durfte nichts anfassen ... sie gaben ihm nicht einmal einen Computer und widerrief alle seine Logins / E-Mails). Unser Entwicklungsteam hat einen All-Nighter erstellt, der verlorene Daten aus Backups wiederherstellt und Code erneut testet / erneut sendet.

Zum Glück haben wir den Rollout mit 150 Filialen durchgeführt, aber es war das schlechteste Rollout-Erlebnis aller Zeiten.

Piep Piep
quelle
1
Zumindest haben sie ihn
herabgestuft
9
Seltsam. Normalerweise wird sofort jemand anderes entlassen und der Sohn des Direktors befördert.
Kubanczyk
@kubanskamac - genial
Beep Beep
Das ist normalerweise die Art von Herabstufung, die besagt: "Hör auf, du dummer Bastard, damit wir dich nicht feuern müssen." Was mich fragt, ob er es jemals getan hat oder nicht.
Ernie
1
Er hat nie gekündigt ... er ist immer noch da (über 10 Jahre später) und ist wieder in seiner alten Position (im Grunde ein Rollout-Koordinator und Helpdesk-Support). Er war allerdings ein paar Jahre im Serverraum.
Beep Beep
2

Ich habe gelernt, jeden Befehlssatz zu beenden, bevor ich die Eingabetaste gedrückt habe.

Eine etwas ähnliche Situation ist, wenn ich mir bei einem Befehl nicht sicher bin. Ich drücke Home und gebe einige Junk-Zeichen ein, damit der Befehl nicht erkannt wird.

me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that

bash: sdkjfhdsudo: command not found

Und dann überprüfe ich die Optionen erneut, wenn nötig langsam. Tut jemand anderes so etwas? Natürlich müssen Sie sicherstellen, dass Sie genügend Junk-Zeichen (5+) eingeben , um zu verhindern, dass es zu einem anderen gültigen Befehl wird und unvorhersehbareren Schaden verursacht.

(Gibt es einen grundlegenden Fehler, den ich nicht herausgefunden habe, oder eine Situation, in der bei mehr als 5 Junk-Zeichen, normalerweise in den "asdfghjkl" -Tasten, etwas Unvorhersehbares geschieht?)

Dave
quelle
9
Junk-Zeichen sind in Ordnung, aber vielleicht zwei weitere gängige (und deterministische!) Ansätze: Setzen Sie ein # auf die Vorderseite des Befehls oder stellen Sie dem Ganzen 'Echo' voran?
Murali Suriar
Ich bin mit @Murali, "Echo" oder Trockenläufe helfen vor allem beim Debuggen, um Datenverlust zu verhindern.
LiraNuna
3
Ein bash(und möglicherweise andere Shells): Alt + Umschalt + 3 (Alt + #) kommentiert den Befehl aus.
Belmin Fernandez
2

Bei der Neuinstallation des Betriebssystems eines Laptops für einen Manager hat jemand eine Kopie aller Daten über das Netzwerk auf eine Linux-Station in / tmp erstellt. Es gab einige Probleme und es dauerte mehr als einen Tag.

... die Linux-Station wurde am Ende des Tages heruntergefahren ...

Am nächsten Tag, als sie nach den Daten des Managers suchten ...

chmeee
quelle
1

Ich arbeite seit ungefähr 7 Monaten als SysAdmin. Eine meiner ersten Aufgaben war es, einen Squid-Proxyserver zum Laufen zu bringen, und ich habe ihn tatsächlich zum Laufen gebracht, etwa zwei Wochen später habe ich BackTrack verwendet und mit vielen Tools herumgespielt. " Den Hacker spielen "Ich habe tatsächlich den Server gehackt, was ein bisschen gut war, aber nachdem ich aus irgendeinem Grund reingekommen bin, habe ich einen rm -rf von / gemacht und einen Teil des Betriebssystems (Debian Linux) gut gelöscht.

Ich habe gelernt, jeden Befehlssatz zu beenden, bevor ich die Eingabetaste gedrückt habe.

Prost.


quelle
Whoa. Sie haben sich in Ihren eigenen Server gehackt und dann versehentlich den Stamm gelöscht? Wie sind deine Finger ausgerutscht?
Matt Simmons
4
Schau mir zu, wie ich dieses n3wb pwn, ich habe seine IP. 127.0.0.1!
Chris Thorpe
1

Einer unserer Kunden hat am 24. Dezember 2005 einen ziemlich ungewöhnlichen Fehler im XFS-Dateisystem festgestellt ... Als ich damals noch nicht wusste, dass es sich um einen Linux-Kernel-Fehler handelt, dachte ich, dass dies nur einige der üblichen Verdächtigen sind (13 TB RAID) mit 8 KB freiem, fehlerhaftem Laufwerksfehler im Array usw.).

Schließlich, da das Dateisystem nicht montierbar war, bat ich den Bediener in der Zeile, einzutreten xfs_repair -n /dev/whatever. Hmm, es möchte das Protokoll löschen (offensichtlich, da der FS nicht mounten kann), aber keine zu bedrohliche Nachricht. Also los : xfs_repair /dev/whatever.

15 Minuten später ruft sie zurück:

Warum kann ich die meisten Dateien nicht sehen?

Hu oh ... Es stellt sich heraus, dass die xfsprogs, um die Verletzung noch schlimmer zu machen, von einer Version waren, die genau in diesem Fall schweren Schaden anrichten würde ... Autsch. 8 TB Daten waren echt weg.

Wazoox
quelle
Das sind viele Daten, die verloren gehen müssen!
Mark Henderson
1

Meine Colo-Einrichtung hatte vor einiger Zeit einige Ausfallzeiten.

Sie haben ihre primäre Netzwerkverbindung zum Internet unterbrochen, um einige Softwarewartungen am Router durchzuführen, fair genug.

Gleichzeitig schaltete der Upstream-Anbieter der sekundären Verbindung diese jedoch aus, um einige Tests durchzuführen (anscheinend wurde ihnen dies mitgeteilt, aber im Rechenzentrum wurde sie falsch etikettiert).

So weit so schlimm ... Kunden hatten jedoch einige Schwierigkeiten, in die Einrichtung zu gelangen, um den Anbieter auf die Ausfallzeit aufmerksam zu machen. Der Anbieter hatte nur VoIP-Telefone, die über ... verbunden waren.

Ich kann mir vorstellen, dass du mir nicht glauben würdest, aber es ist wahr und eine Frage der Aufzeichnung in der Blogosphäre :)

gbjbaanb
quelle
1

Ich bin mir nicht sicher, ob dies eine interessante Antwort sein könnte, aber ich bin auch ein Programmierer. Ich habe meine letzte Website vollständig auf einem Produktions-Evoirement codiert, ohne Backups auf meinem PC. An einem schlechten Tag nach 16 Stunden kontinuierlicher Arbeit musste ich eine Partition einbauen, und der schnellste Weg, dies zu tun, bestand darin, sie zu formatieren. Ich habe versucht fdisk -lzu überprüfen, wie die Partition heißt, die ich formatieren musste, und leider habe ich die falsche Zeile gelesen und formatiert.

Ich habe 6 Monate Arbeit verloren.

Glücklicherweise machen Sie es beim zweiten Mal besser und schneller, da Sie bereits wissen, wie es geht. Jetzt ist die Website live. Und ich habe Backups: =)

Cedivad
quelle
+1 für 6 Monate Arbeit