Ich suche nach amüsanten Geschichten über Unfälle von Systemadministratoren, die Sie hatten. Löschen der E-Mail des CEO, Formatieren der falschen Festplatte usw.
Ich werde meine eigene Geschichte als Antwort hinzufügen.
Dies ist wirklich eher eine Umfrage als eine Frage. Dies sollte wahrscheinlich auf Community-Wiki gesetzt werden.
Zoredache
7
Yup, das sollte definitiv ein Community-Wiki sein. In der Absicht der Frage ist meine Lieblingsgeschichte jedoch die 500-Meilen-E-Mail - ibiblio.org/harris/500milemail.html - obwohl ich das offensichtlich nicht war.
Mihai Limbăşan
Die 500 Meilen sind einfach wunderbar
Hubert Kario
Dies sollte als "schlimmerer Systemadministratorunfall" bezeichnet werden.
Rilindo
Antworten:
133
Ich hatte Spaß daran, den Unterschied zwischen dem Linux-Befehl "killall" (bricht alle Prozesse ab, die dem angegebenen Namen entsprechen, nützlich zum Stoppen von Zombies) und dem Solaris-Befehl "killall" (bricht alle Prozesse ab und hält das System an, nützlich zum Stoppen des Produktionsservers in in der Mitte der Hauptverkehrszeiten und eine Woche lang alle Mitarbeiter zum Lachen zu bringen).
Kenne ich schon. Danach haben wir den killall-Befehl auf den Solaris-Boxen aliasiert: alias killall = 'echo ORLLY?' =)
Commander Keen
29
Unter Solaris gibt es auch einen wichtigen Unterschied zwischen 'ifconfig -a4' (alle Schnittstellen anzeigen, IPv4-Informationen) und 'ifconfig -a 4' (alle Schnittstellen auf 0.0.0.4 setzen).
Zanchey
3
+1 "Hoppla, dieser Wind ist in Solaris angemeldet?"
Mark Harrison
4
@ Commander, ich wollte Ihren Kommentar verbessern, aber in diesem Moment gibt es genau 42 Verbesserungen ... ich konnte es einfach nicht .
Massimo
5
Unter hostname -fLinux wird auch der vollqualifizierte Domänenname unter Linux gedruckt. Unter Solaris wird der Hostname auf festgelegt -f.
200_success
73
Ich war für unseren Corporate Web-Proxy verantwortlich, der zu dieser Zeit das Produkt von Netscape war. Beim Herumspielen in den Admin-Formularen (es war eine webbasierte Oberfläche) gab es eine große (und ich schwöre, es war rot) Schaltfläche, die besagte Benutzerdatenbank löschen . Kein Problem, dachte ich. Mal sehen, welche Optionen es mir gibt, wenn ich das treffe. Es wird mit Sicherheit eine Bestätigungsaufforderung angezeigt, wenn keine Optionen verfügbar sind.
Ja, keine Bestätigung. Keine Optionen Keine weiteren Benutzer.
Also ging ich zu Mr. Solaris Sysadmin und sagte, dass ich dringend eine Wiederherstellung von Band brauche, auf die er antwortete: "Ich mache keine Sicherungskopie dieser Box."
"Äh, komm nochmal", erwiderte ich.
"Ich kann diese Box nicht sichern. Sie ist auf meiner Liste der Dinge, die zur Backup-Rotation hinzugefügt werden sollen, aber ich bin noch nicht dazu gekommen."
"Dieser Server ist seit fast 8 Monaten in Produktion!" Ich schrie.
Dies ist definitiv eine Geschichte für all jene Leute, die sich über das nervige "Bist du sicher?" Beschweren.
dialogs
45
Ich bin mir nicht sicher, ob Sie derjenige sein sollten, der ihn
anschreit
14
Dies ist kein wirklicher Unfall - Sie haben absichtlich die Schaltfläche "Benutzerdatenbank
löschen"
5
Ja, du hast recht. Das Drücken des Knopfes war kein Unfall. Das Löschen der Datenbank war der Unfallteil. Was auch immer ...
squillman
7
Auf diese Schaltfläche sollten zwei oder drei Bestätigungsaufforderungen folgen. Wie ist es eine nützliche Funktion, die Benutzerdatenbank zu löschen? Ich beschuldige den Programmierer, der den Knopf hineingesteckt hat. Und die Tatsache, dass die Datenbank nicht gesichert wurde. "Das Genie mag seine Grenzen haben, aber die Dummheit ist nicht behindert." (attr zu Elbert Hubbard). Mit der Annahme zu bauen, dass Menschen nicht neugierig sind, ist sorgloser Affe nur eine Katastrophe.
Jared Updike
66
Vor vielen Jahren hatte das Unternehmen, für das ich arbeitete, einen Client, der jede Nacht eine Sicherung seines NT 4.0-Servers auf ein Jaz-Laufwerk (wie eine Zip-Disk mit hoher Kapazität) ausführte.
Wir haben eine Batch-Datei eingerichtet, die über Nacht als geplanter Job ausgeführt wurde. Jeden Morgen holten sie die letzte Nacht Diskette vom Laufwerk und bevor sie am Abend gingen, legten sie die nächste Diskette in die Sequenz ein.
Wie auch immer, die Batch-Datei sah ungefähr so aus (das Jaz-Laufwerk war Laufwerk F:) ...
@echo off
F:
deltree /y *.*
xcopy <important files> F:
Jedenfalls vergaßen sie eines Nachts, den Datenträger einzulegen. Die Änderung von Laufwerk F: schlug fehl (kein Datenträger im Laufwerk), und die Batch-Datei lief weiter. Das Standardarbeitsverzeichnis für die Batchdatei? C :. Zum ersten Mal habe ich gesehen, wie eine Backup-Routine den Server zerstört, der gerade gesichert wurde.
Ich habe an diesem Tag ein wenig über Sysadminning (und Ausnahmebehandlung) gelernt.
... müssen wir erklären, was Jaz-Laufwerke sind? Bin ich wirklich so alt?
Spencer Ruport
3
Es war eine IOMEGA-Sache (erinnerst du dich an Zip-Laufwerke?), War der große Bruder der Zip-Laufwerke, und es war wie eine Festplatte ohne Köpfe, nur die Platten, die in einem Plastikgehäuse mit einem kleinen Fenster steckten und darauf steckten Das Laufwerk, das Laufwerk fügte die Überschriften ein. Wo wie 1 oder 2 GB, teuer und zu Überhitzung neigen, wurde nicht empfohlen, die Patronen im Inneren des Lesegeräts zu lassen (dies sagte ein alter IOMEGA-Chef)
Andor
3
Hehe, ich finde es gut, wie jaz drive im Vergleich zum so toten und irrelevanten Zip-Laufwerk erklärt wird.
Luke
2
Wenn Sie sich älter fühlen, gibt es Sysadmins, die Deltree noch nie gesehen haben.
Joseph
5
Ich musste vielen Programmierern erklären, dass Sie, wenn Sie versuchen, eine Operation durchzuführen, die einen Status ändert und dennoch fehlschlägt und Sie im vorherigen Status belässt, überprüfen müssen, ob dies erfolgreich war, wenn Sie etwas Gefährliches tun sollten Sie im vorherigen Zustand sein. Warum muss ich das erklären?
und von da an wurde die Bereinigung crontab mit dem Befehl 'file' ergänzt ... :)
MikeyB
3
Oh lieber Gott ....
squillman
4
Oh mein Gott ... wow. Ich mache mir eine mentale Notiz darüber, also mache ich es nie.
Glenn Willen
60
Ich mag die Art und Weise, wie jeder seine Geschichte mit "als ich jung / grün war" bezeichnet, als ob er es nie wieder tun würde. Unfälle können sogar den erfahrensten Profis passieren.
Mein eigener schlimmster Moment ist so schlimm, dass ich immer noch Herzklopfen bekomme, wenn ich darüber nachdenke ...
Wir hatten ein SAN mit Produktionsdaten. Kritisch für das Unternehmen. Mein "Mentor" hat beschlossen, eine Partition zu erweitern, um Speicherplatz freizugeben. Kannst du sehen, wohin das führt? Er sagte, dass die SAN-Software dies live in den Produktionsstunden tun könnte und niemand es merken würde. Alarmglocken hätten läuten sollen, waren aber auffällig leise. Er sagte, er habe es "viele Male zuvor" ohne Probleme gemacht. Aber hier ist die Sache - er veranlasste MICH, auf den Knopf zu klicken, der lautete: "Bist du sicher?"! Als ich neu in der Firma war, nahm ich an, dass dieser Typ wusste, wovon er sprach. Großer Fehler. Die gute Nachricht war, dass die LUN erweitert wurde. Die schlechten Nachrichten waren ... nun, ich wusste, dass es schlechte Nachrichten gab, als ich anfing, Schreibfehler auf der Windows-Box zu sehen.
Ich bin froh, dass ich braune Hosen trug.
Wir mussten erklären, warum 1 TB Daten zur Mittagszeit verschwunden waren. Das war ein sehr, sehr schlechter Tag.
Eigentlich ist es ein gutes Prinzip - bevor Sie etwas tun, an dem Sie Zweifel haben, stellen Sie sich vor, Sie müssten dem Management erklären, wenn etwas schief geht. Wenn Sie keine gute Antwort finden, um Ihre Handlungen zu erklären, dann tun Sie es nicht.
+1 für den letzten Absatz - die "auf deinen Händen sitzen" Technik, eine wichtige Minute zum Nachdenken
Andy
12
Es gibt eine bestimmte Fähigkeit, die Sie nach einer Weile der Arbeit mit Live-Systemen erhalten: ein Spinnengefühl für das, was gefährlich ist und was nicht. Zum Beispiel eine zusätzliche Sekunde anhalten, bevor Sie an der Root-Eingabeaufforderung die Eingabetaste drücken, oder sicherstellen, dass die SQL-Aktualisierungsanweisung eine ordnungsgemäße where-Klausel enthält (die bereits in einer ausgewählten Anzahl (*) ausgeführt wurde).
Jplindstrom
18
Ich möchte ein Popup mit der Aufschrift "Möchten Sie Ihren Lebenslauf ausdrucken, bevor Sie fortfahren?" .. und haben nur eine Option: "Ja"
warren
+1 für den Rat im letzten Absatz
Jeroen Huinink
3
+1, ebenso. Ich erinnere mich, von einem Sysadmin-Freund gehört zu haben, dass es in seiner jährlichen Leistungsbeurteilung Probleme mit seiner schlechten Schreibgeschwindigkeit gegeben hatte, die er verächtlich (und zu Recht) mit "Ich werde nicht dafür bezahlt, schnell zu tippen. Ich werde dafür bezahlt, dass ich sehr oft die Eingabetaste drücke." langsam und nachdenklich. "
MadHatter
54
Nagios hat uns eines Morgens angerufen, als die Geschäftszeiten anfingen zu sagen, dass keine Verbindung zu einem nicht kritischen Server hergestellt werden konnte. Ok, wandere zum Serverraum. Es ist ein alter Server, ein Dell 1650, der im Jahr '02 gekauft wurde, und wir wussten, dass die 1650er Hardwareprobleme hatten. Der PJ drückt den Ein- / Ausschalter. Nichts. Drücken Sie die Taste erneut und halten Sie sie fünf Sekunden lang gedrückt, um das Einschalten zu erzwingen. Dies setzt den Fehlerschutz des BMC außer Kraft, da es ohne DRAC keine Möglichkeit gibt, die BMC-Protokolle zu überprüfen, ohne das Gehäuse einzuschalten.
Das Gerät startet den POST und stirbt dann erneut. Ich stehe darüber und gehe: "Ich rieche Rauch." Wir ziehen den Server auf Schienen heraus, und eines der Netzteile fühlt sich warm an, also zieht der PJ daran und ist dabei, die Box wieder zu schließen. Ich sage: "Nein, das ist kein Netzteilrauch, das ist Motherboardrauch."
Wir öffnen den Koffer erneut und suchen nach der Quelle des brennenden Geruchs. Es hat sich herausgestellt, dass eine Induktionsspule und ein Kondensator den Spannungsregler auf der Hauptplatine etwas weggeblasen haben und geschmolzenes Kupfer und Kondensator auf alles gesprüht haben, wodurch ein paar Sachen kurzgeschlossen wurden und im Grunde ein großes Durcheinander entstanden sind.
Das Schlimmste für mich war zu erkennen, dass ich genug Hardware geraucht hatte, um den Unterschied zwischen dem Geruch eines verbrannten Motherboards und einem verbrannten Netzteil zu erkennen.
Zu den Auswahlkriterien für diesen Job gehören: Guter Geruchssinn. Brillant.
mlp
13
Buddy von mir schraubte einen Satz Laufwerksschienen so weit in eine Platte, dass sie in die Leiterplatte eindrangen und sie kurzschlossen. Ziemlich rosa Rauch. Sehr unterscheidbar.
squillman
47
Vor drei Tagen (im Ernst) war ich remote bei einem Schulserver angemeldet und habe Service Pack 2 auf einem Windows Server 2008-Dateiserver installiert.
Ich entschloss mich, den erforderlichen Neustart für einen späten Abend zu planen, wenn die Lehrer nicht angemeldet waren, um ihre Jahresendberichte fertigzustellen. Ich habe etwas geschrieben wie:
um 23:59 "shutdown -r -t 0"
... was gut funktioniert haben könnte.
Aber dann habe ich mich selbst erraten. War meine 'shutdown'-Syntax korrekt? Ich habe versucht, die Hilfe zur Verwendung durch Eingabe anzuzeigen
Abschaltung / h
... und verlor sofort meine RDP-Verbindung. In Panik habe ich Google nach der Syntax gefragt. Eine schnelle Suche ergab, dass die Server 2008-Version des Herunterfahrens einen / h-Schalter enthält, der (wie Sie vielleicht vermutet haben) den Computer in den Ruhezustand versetzt.
Die Lehrer riefen mich innerhalb weniger Minuten an, um zu melden, dass sie die Zeugnisse, an denen sie gearbeitet hatten, nicht mehr öffnen oder speichern konnten. Da ich nicht vor Ort war und der Serverraum abgeschlossen war, musste ich die Schulleiterin direkt anrufen und sie durch den Vorgang zum Wiedereinschalten des Geräts führen.
Heute habe ich als Entschuldigung hausgemachte Kekse mitgebracht.
Ein perfektes Beispiel für ein fehlerhaftes Benutzeroberflächendesign in der Befehlszeile: Was ist mit dem "Prinzip der geringsten Überraschung" passiert?
Mei
9
unter DOS / Windows nicht wahr?
Jared Updike
3
Es ist normalerweise /? auf Win, aber es gibt viele Dienstprogramme, die von UNIX portiert oder von UNIX-Leuten geschrieben wurden (einschließlich einiger solcher bei MS), die -h oder / h sind
Richard Gadsden
6
..aber Sie noch immer versuchen , die /?erste!
Warren
14
Deshalb mag ich Linux. man shutdown. Ich weiß, ich werde keine Probleme damit verursachen man!
Josh
37
In früheren Aufträgen hatten wir ein großartiges, selbst entwickeltes System, das jede einzelne E-Mail, die im Unternehmen einging, verließ oder verblieb, protokollierte und archivierte.
Ihre gesamte Mailbox weggeblasen? Kein Problem! Suchen Sie nach einer E-Mail, die Ihnen vor einer Woche / einem Monat / einem Jahr gesendet wurde, aber Sie können sich nicht erinnern, wer sie gesendet hat oder was der Betreff war? Kein Problem! Ab Februar liefern wir Ihnen einfach alles in eine spezielle Mappe.
Irgendwann musste der CEO des Unternehmens die Post überwachen, die sich zwischen einem Konkurrenten und einem verdächtigen internen Verkäufer bewegt. Also haben wir ein Skript erstellt, das jede Nacht ausgeführt wurde, und dem CEO relevante E-Mails vom Vortag zugestellt. Kein Problem!
Etwa einen Monat später kam die Nachricht von einem Doppel-Plus-Dringlichkeitsproblem. Scheint, als der CEO die Liste der an $ OTHERCOMPANY gesendeten Mails durchlas, ist er auf Folgendes gestoßen:
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
Da der CEO eine wichtige Person war, war er natürlich zu beschäftigt, um in Outlook auf alle "Send Read Receipt" -Dialogfelder zu klicken, und hatte seinen Client so konfiguriert, dass er sie nur alle sendet. Für eine der vom Überwachungsfilter erfassten Nachrichten wurde eine Lesebestätigungsanforderung festgelegt. Ratet mal, was Outlook getan hat? Sicherlich die "heimliche" Überwachung versaut.
Unsere nächste Aufgabe: Hinzufügen von Regeln zum E-Mail-Filter, um ausgehende Lesebestätigungen vom CEO an dieses Unternehmen zu blockieren. Ja, das war der einfachste Weg. :)
In meinem Land ist das jedoch nicht legal. Überhaupt.
Mafu
1
Ah, das ist dein Land. :) In Kanada ist das in Ordnung.
MikeyB
7
Ist es nicht legal, E-Mails zu überwachen, die auf den Servern Ihres Unternehmens eingehen oder diese verlassen? In welchem Land lebst du?
Andrew Ensley
1
+1 für die Zeitung
Fahad Sadah
36
Ahhh, meins war vor ungefähr 10 Jahren, als ich noch nasse Füße bekam. Ich hatte die Freude, Batteriesicherungen auf allen Computern des Programmierers zu installieren. Sie wollten auch, dass die geladene Software vor einem Stromausfall warnt und ordnungsgemäß herunterfährt.
Also habe ich es auf meinem Computer eingerichtet, um zunächst alles zu testen und sicherzustellen, dass alles funktioniert. Also ziehe ich das Netzkabel ab und die Meldung erscheint auf meinem Bildschirm. msgstr "Externer Stromausfall, Beginn des Herunterfahrens des Systems".
Also dachte ich: Hey cool, es hat funktioniert. Aber aus irgendeinem seltsamen Grund, an den ich mich nicht erinnere, wurde diese Nachricht als Netzwerknachricht gesendet, sodass über 200 Computer in der Firma diese Nachricht erhielten, wobei über 100 Benutzer Programmierer waren.
Ja, rede über Massenfreak!
Ich hielt meinen Kopf an diesem Ort für eine Weile tief!
Haha, hört sich an wie das, was einem Freund von mir hier mit "net send" und ungefähr 1300 Empfängern
passiert ist
10
Pfui. Ich habe das "Net Send" -Ding auch im College gemacht. Ich dachte, "sie müssten das deaktiviert haben". ba-ding! Überall im Labor hatten Computer die Nachricht. Ich entschied mich, mich beim Netzadministrator zu entschuldigen, und auf meinem Weg hatte jeder Computer, an dem ich vorbeiging, die Nachricht. / Seufzer
Matt Simmons
3
Jawohl, schämen Sie sich! Mein Freund ist nicht von seinem Stuhl gestiegen. Ich habe mich auch nicht darum gekümmert, sein Telefon zu beantworten.
squillman
10
Haha, ein Freund von mir schickte an alle in der Schule "HILFE! Ich bin in Raum 114 gefangen" und natürlich 60 Sekunden später tauchte eine kleine Armee von Leuten auf, um herauszufinden, wer die Nachricht gesendet hatte
Mark Henderson
2
Wir haben diese Funktion tatsächlich verwendet, um den Sys-Administrator an meinem Junior College zu punken. Löschte alle Computerlabore mit gefälschten AV-Nachrichten und Nachrichten zum Herunterfahren des Systems, die aussahen, als stammten sie von ihm. Er vermutete stark, dass wir die Schuldigen waren, aber ich und mein Kumpel hatten jeweils ein Alibi (ich schickte das erste, als er im Unterricht war, und er schickte das zweite, als ich im Unterricht war) und die Computer hatten allgemeine Laboranmeldungen
Shial
35
Ich verwende häufig den Befehl "sys-unconfig" auf Solaris-Computern, um den Computernamensdienst, die IP-Adresse und das Root-Kennwort zurückzusetzen. Ich war auf einem Benutzersystem und habe mich beim Installationsserver für Gebäude angemeldet und etwas nachgeschlagen (als root). Dann habe ich vergessen, dass ich mich auf einem anderen Computer angemeldet habe (nicht beschreibende Eingabeaufforderung "#"). Ich habe den Befehl "sys-unconfig" ausgeführt.
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
Diese Meldung "Verbindung geschlossen" verwandelte sich langsam in Panik. Auf welchem Computer war ich angemeldet, als ich diesen Befehl ausführte?
Das Schlimmste daran war nicht die harte Zeit, die mir meine Mitarbeiter bereiteten, sondern, dass ich einen Monat später dasselbe tat.
Oh, der Klassiker: "Auf welcher Maschine bin ich?" Moment der Panik. Ich war dort. Ich fühle deinen Schmerz.
sysadmin1138
2
Ich auch. Wer das erlebt hat, weiß genau, was der Begriff "eiskaltes Blut" bedeutet.
Matt Simmons
21
Es gibt einen Grund, warum meine Shell-Eingabeaufforderung immer den Benutzernamen und den Hostnamen enthält ...
derobert
2
Ich habe einmal Aliase für die Anmeldung an den verschiedenen Computern eingerichtet, um einen Hintergrund mit verschiedenen Farben zu erhalten, damit ich noch deutlicher erkennen kann, auf welchem Computer ich war.
Zitrax
Da ich Linux sowohl auf Servern als auch auf meinem lokalen Computer verwende, werden auf Servern und auf meinem PC häufig Root-Eingabeaufforderungen geöffnet. Die Server werden zur Unterscheidung rot angezeigt
Hubert Kario
27
Ich habe eine ziemlich gute. Zugegeben, es war vor meiner Zeit als Sysadmin, aber immer noch technisch bedingt, also dachte ich mir, ich würde es hinzufügen.
Früher arbeitete ich als Satcom- / Breitbandtechniker für die USAF. Nach meinem Abschluss der technischen Schule war ich in Südkorea stationiert. Kurz nach der Ankunft auf der Station bot sich die Gelegenheit, mit den "Großen", die schon eine Weile dort waren, nach Süden zu fahren und tatsächlich an realen Geräten (dh Produktionsgeräten) zu arbeiten.
Ich ging mit der Besatzung unter und war als eifriger junger Techniker ziemlich aufgeregt über die Aussicht, ein tatsächliches Gerät in die Hände zu bekommen, das LIVE-Militärstimmen- und -Datenverkehr durchlief.
Um mich langsam anzufangen, gaben sie mir ein Handbuch, wandten sich der Abteilung für vorbeugende Wartung zu und wiesen mich in Richtung von vier Racks, die mit mehreren großen digitalen Multiplexern gefüllt waren. Die Ausrüstung war einfach genug, wir hatten die gleiche Ausrüstung in der Technikerschule abgedeckt.
Erste Seite des Handbuchs gelesen; "Schalten Sie den Ditigal-Multiplexer ein. Schalten Sie beide hinteren Schalter ein und warten Sie, bis sich das Gerät einschaltet. Beginnen Sie dann mit den Tests." Ich schaute auf und es war bereits Strom ANGEWENDET!
Ich war auf jeden Fall in einem Dilemma. Da ich nicht wusste, wie ich vorgehen sollte, gab ich mein Bestes: "Ähm ... irgendwie hier verloren", und schaute den Senior an.
Er sah mich an und lachte: "Nein, nein, es ist in Ordnung. Sie können diesen Teil der Checkliste ignorieren." Dann, als er den Ausdruck auf meinem Gesicht bemerkte (seit wir in der Schule NIE gelernt hatten, NIE irgendeinen Teil einer Checkliste zu ignorieren und es war sicher, dass Tod und Zerstörung bevorstanden), warf er einen ernsten Blick auf sein Gesicht Gesicht und sagte: "Ignorieren Sie nur diesen Teil! Folgen Sie dem Rest, auf den Buchstaben!"
Pflichtbewusst durchlief ich die mehrstufigen PM-Anweisungen, glücklich wie eine Muschel und stolz darauf, dass sie eine so niedrige (wenn auch kluge) Technologie diese wichtige Arbeit erledigen ließen.
Irgendwann zwischen der fünften und der sechsten Checkliste für vorbeugende Wartung bei diesen riesigen Multiplexern bemerkte ich eine erhöhte Aktivität um mich herum. Es klingelten die Telefone, die Leute bewegten sich schnell. Fragende Blicke wurden ausgetauscht.
Schließlich rannte eine Gruppe von Leuten auf mich zu, angeführt von einem der älteren Techniker, die mich gestürzt hatten.
"Hey! Wir sehen GROSSE Ausfälle im Datenverkehr und wir haben den Weg zurück zu den Racks, an denen Sie arbeiten, isoliert / zurückverfolgt! Sehen Sie irgendwelche seltsamen ..."
(Zu diesem Zeitpunkt wurde er von einer anderen der Problemlöser abgeschnitten, die sich auf den Weg zu der ersten Gruppe von Multiplexern gemacht hatte, auf denen ich die PMs durchgeführt hatte.)
"HEILIGE NÜSSE! SIE SIND ABGESCHALTET! ER HAT SIE ABGESCHALTET !!!!"
In Kürze sah ich zu, wie sie den ersten Schritt des Handbuchs, "Beide hinteren Schalter auf ON stellen", eilig durchliefen. Als der leitende Techniker fertig war, kam er zu mir und fragte ungläubig, was ich denke von, indem Sie die kritischen Geräte ausschalten.
Verängstigt überreichte ich ihm die Checkliste, der ich gefolgt war, und schwor, dass ich überhaupt nicht abgewichen war. Dass ich es befolgt hatte, "auf den Brief", wie er angewiesen hatte.
Nach einer Weile lachte er und wies darauf hin, wo das Problem lag.
Im Handbuch lautete der letzte Schritt in der Checkliste für vorbeugende Wartung:
"Zeichnen Sie den letzten Messwert der Sonde auf, wischen Sie die Frontplatte ab, entfernen Sie Staub und Partikel und schalten Sie beide hinteren Netzschalter auf OFF."
Hat der letzte Schritt zum Ausschalten der Maschinen nicht etwas seltsam gewirkt? Ich wundere mich nur.
Andrew Ensley
2
Es schien wahrscheinlich seltsam, aber denken Sie daran, er war beim Militär. Stellen Sie sich vor, Sie versuchen, eine Armee zu befehligen, in der jeder Soldat sagt: "Warten Sie, sind Sie sicher? Dieser Befehl klingt für mich komisch."
Kyralessa
26
Es ist eine Art Sysadmin-Unfall. Insofern müssen Sysadmins gelegentlich eine große Anzahl von Maschinen von Punkt A nach Punkt B transportieren (wobei A und B scheinbar immer durch mehrere Treppen in einem Gebäude ohne Aufzug getrennt sind). Auf der n-ten Reise des Tages hielt ich drei Flüge von der Ladefläche im Keller an, um mich mit jemandem zu unterhalten, der herunterkam, und stützte den Turm in voller Größe mit der Station ab, die ich auf dem inneren Geländer des offenen Treppenhauses schleppte und ... na ja, du hast geraten ... habe meinen Griff leicht verloren. Es stürzte zielsicher geradewegs in den Brunnen und als es den Boden erreichte, ähm ... nicht so sehr mit der Funktionalität für diesen! Insgesamt rettbare Teile: zwei RAM-Sticks, ein Diskettenlaufwerk und eine ISDN-Karte (Gott segne die Ingenieure von Hermstedt!). Alles andere entweder geknackt,
Durch die Gnade Gottes ging niemand darunter, was zum Glück für mich das erste Mal war, dass mein Chef es tat, also musste ich meinen Job behalten. Fühlte mich eine Stunde lang sehr krank.
@ J.Pablo - Nein, ich fürchte, das war vor über zehn Jahren, als die Kameras groß waren und Chemikalien enthielten. Wenn ich es kürzlich getan hätte, hätte ich die Folgen auf YouTube innerhalb von zehn Minuten gehabt!
Avstrallen
Wahre Geschichte: Dies geschah bei mir vor 9 Jahren, aber mit einer Klimaanlage und aus dem Fenster der 9. Etage . Es war nicht meine Schuld (ich half nur jemandem) und niemand wurde verletzt, aber ich fühlte mich tagelang krank .
imgx64
26
Ich habe ein System für jemanden neu geladen und ihm während des manuellen Sicherungsvorgangs die Frage gestellt: "Haben Sie andere Programme, die Sie verwenden?" und "Gibt es noch etwas Wichtiges, das Sie am Computer tun?"
Er sagte "nein" mehrere Male.
Ich war überzeugt und habe das Laufwerk formatiert.
Ungefähr 30 Minuten später sagte er "Oh mein Gott" und legte beide Hände auf seinen Kopf.
Es stellte sich heraus, dass er über 10 Jahre in einem speziellen Programm an einem Buchskript gearbeitet hatte. Dies war damals, als Programme zum Speichern von Benutzerdaten in ihrem Programmdateiverzeichnis verwendet wurden und ich es vermisste.
Whhhhooooops.
Er war nicht sauer auf mich, aber es war ein ernüchterndes Gefühl.
Sie haben ihm eine wertvolle Lektion erteilt: Backups sind wichtig
MikeyB
5
Es tut wirklich weh, das nur zu lesen. So schmerzhaft. Sicher eine Lektion, aber ...
Mafu
Immer noch eine gute Erfahrung für den armen Kerl. Er hätte 30 Jahre lang arbeiten und einen Herzinfarkt vor sich haben können.
halp
Mann, ich erinnere mich, etwas Ähnliches getan zu haben. Anscheinend hatte mein Onkel eine Menge ähnlicher Kundensachen für diese benutzerdefinierte Windows-App, die er von seinem Job erhalten hatte. Es war in Programmdateien / Seufzer. Zum Glück erinnerte ich mich daran, als ich den Arbeits-PC meines Vaters reparierte, auf dem sich eine benutzerdefinierte Versicherungs-App befand.
PHGamer
@phgamer, darf ich Sie bitten, auf Ihre Sprache zu achten - das ist nicht so ein Ort, sorry.
Chopper3
23
Mein persönlicher Favorit ist eigentlich nicht mein, und ich bin sehr froh darüber. Schauen Sie sich hier um.
Ich arbeitete in einer Firma, die Software entwickelte, die auf Linux-Computern lief, die vom Kunden bereitgestellt wurden. Wir übernehmen im Wesentlichen die Maschinen, konfigurieren sie vollständig gemäß unseren Spezifikationen und übernehmen die gesamte Verwaltung und Überwachung. Im Wesentlichen waren wir ein Team von 10-15 Systemadministratoren, die Tausende von Servern für Hunderte von Kunden verwalteten. Fehler mussten passieren.
Einer unserer Mitarbeiter hat einige Probleme auf einem Server festgestellt (ein Backup, glaube ich) und beschlossen, dass er fsck darauf ausführen soll. Er stoppte alle relevanten Dienste, vergewisserte sich, dass auf dem System kürzlich Backups erstellt wurden, und führte dann den Befehl fsck aus, beklagte sich jedoch, dass das Dateisystem eingehängt war. Da wir remote waren und keinen Remote-Zugriff hatten (DRAC, ILO usw.), konnte er den fsck nicht ausführen, war sich aber ziemlich sicher, dass dies mit dem bereitgestellten Dateisystem sicher war, wenn Sie vorsichtig waren.
Er beschloss, es selbst zu versuchen, indem er fsck auf seiner Root-Partition ausführte, mit vorhersehbaren Ergebnissen - er beschädigte seine Root-Partition und konnte nicht mehr booten.
Verwirrt ging er rüber und sprach mit unserem Teamleiter. Der Lead sagte, er sei sich ziemlich sicher, dass Sie das nicht könnten, und das Teammitglied sagte: "Sicher können Sie das!", Nahm die Tastatur des Leads und zeigte ihm, dass Sie das könnten - indem Sie fsck auf der Root-Partition des Leads ausführen. Welche vollständig beschädigte HIS Root-Partition.
Endresultat? Dank der Tests der Teammitglieder gehen keine Kundendaten verloren. Zwei Tage Mitarbeiterproduktivität gingen verloren, aber das war weitaus weniger wert als die Daten auf der Maschine des Kunden. Und für die Aufzeichnung? Sie können fsck auf einem bereitgestellten Laufwerk ausführen, aber nur, um Daten zu überprüfen. Nicht zu reparieren. Das war der Fehler des Teammitglieds.
-
Um meine eigene Geschichte hinzuzufügen, arbeitete ich in derselben Firma und versuchte, ein Benutzerkennwort zurückzusetzen. Unser System hat es abgelehnt, dass ich es auf das von ihm benötigte Passwort einstelle, da es alte Passwort-Hashes verfolgt und Ihnen das Duplizieren des Passworts verweigert hat. Der Mechanismus war einfach: Er überprüfte Ihr Passwort anhand des neuesten Hashs in der Datenbank.
(Und für den Bericht, es musste das alte Passwort sein, da es sich um ein gemeinsam genutztes Konto handelte und sichergestellt werden musste, dass jeder wusste, dass das neue Passwort unpraktisch war.)
Ich beschloss, einfach in die Benutzerdatenbank zu gehen und die neuen Datensätze zu löschen, damit die älteren verwendet werden. Es ist alles nur SQL (mit einer alten Version von Sybase), also ist es einfach. Zuerst musste ich die Aufzeichnungen finden:
SELECT * FROM users_passwords WHERE username='someuser';
Ich fand die alte Akte, die er aufbewahren wollte; da waren noch zwei davor. Ich entschied mich, klug zu sein und nur etwas Neues als den alten Datensatz zu löschen. Beim Betrachten der Ergebnismenge stellte ich fest, dass das alte Kennwort in der Datenbank ID Nr. 28 und das neue ID Nr. Mehrere Tausend lautete (sehr ausgelastetes System). Das ist ganz einfach, alle alten Zeilen waren> 28, also:
DELETE FROM users_passwords WHERE id > 28;
Es gibt nichts Schlimmeres, als ein einfaches Zeilenschneiden durchzuführen und zu sehen, dass 212.500 Zeilen betroffen sind. Glücklicherweise hatten wir zwei Master-Datenbankserver (mit der Benutzer-ID), aber Sybase (zumindest unsere Version) unterstützte die automatische Replikation nicht, sodass die alten Datensätze nicht automatisch gelöscht wurden. Es war eine triviale Angelegenheit, einen Speicherauszug der users_passwords-Tabelle abzurufen und erneut zu importieren. Trotzdem ein ziemlich großes "oh f ** k!" Moment.
Genauer gesagt, deshalb geben Sie immer zuerst ein "DELETE FROM xxx" als "SELECT * FROM xxx" aus. Überprüfen Sie dann noch einmal, was angezeigt wird, und ersetzen Sie dann SELECT * durch DELETE.
sleske
1
Zu Ihrer Information, ich bin mir nicht sicher, ob auch ein Fsck ohne Änderungen auf gemountetem ext3 sicher ist, es führt schließlich eine
Journalwiederholung durch
14
Nein, deshalb geben Sie immer zuerst einen Anfangsbuchstaben aus. Wenn Sie dann feststellen, dass viel mehr Zeilen betroffen sind als beabsichtigt, können Sie einen Rollback durchführen.
pipTheGeek
1
@Dan Das ist fast das gleiche wie bei jedem anderen RDBMS. Sie müssen nur sicherstellen, dass Sie Ihre Anweisung ausführen, Ihre Überprüfungen bereits geplant haben, z. Es hat mich einmal gerettet, als ich vergaß, die WHERE-Klausel in einer T-SQL-Anweisung in MS-SQL 2005
hervorzuheben
22
Ein weiterer meiner Favoriten:
Als ich einen Computer und einen lokalen Laserdrucker auf einem System installierte, hatte ich die gute Idee, beide an die USV des Computers anzuschließen. Versuchen Sie jemals, auf einem lokalen Laserdrucker zu drucken, wenn dieser an eine Desktop-USV angeschlossen ist? Wenn Sie es nicht wissen, werden in der Regel alle Verstärker ausgelastet. Dadurch wird der Computer neu gestartet. Und der Druckauftrag wird nie beendet.
Immer den Anruf bekommen: ' Immer wenn ich drucke, startet es meinen Computer neu und druckt nicht !!! '?
Wo warst du, bevor ich ihre Live-Datenbank gelöscht habe?
Ian Boyd
1
Das ist eine Art Übergangsritus; Jeder junge DBA muss das mindestens einmal tun. Hoffentlich auf etwas, das nicht zu wichtig ist ...
RainyRat
22
kill 1Als root eingegeben . initund alle ihre Kinder starben. Und alle ihre Kinder. etc, etc. Hoppla.
Was ich tippen wollte, war kill %1
Nachdem ich begriffen hatte, was ich getan hatte, rannte ich zum Bedienfeld einer BIG- Wollballensortiermaschine und drückte auf den Not-Aus-Schalter. Dies hielt die Maschine an, sich selbst in Stücke zu reißen, da ich gerade die Software getötet hatte, die sie kontrollierte.
Dieser brachte mich zum Lachen! Nachdem ich in der Vergangenheit mit großen Maschinen gearbeitet habe, kann ich Steuerungssysteme anwenden.
SpaceManSpiff
1
Bei BSD führte kill -1 1 dazu, dass init inittab oder / etc / ttys erneut las. Das "Minus"
wegzulassen
2
Gott sei Dank für diesen Not-Aus-Taster! :-)
staticsan
+1, weil Sie nicht in der Lage sind zu sagen "Sie können keinen Hardwareschaden verursachen, indem Sie mit Software herumspielen."
outis
21
Wir befanden uns mitten in einem Stromausfall und stellten fest, dass die USV mit 112% der konfigurierten Last lief. Dies war kein großes Problem, da wir zu der Zeit mit dem Generator arbeiteten.
Also zogen wir Sicherungsstromkabel, um den Stromverbrauch dieser USV zu reduzieren (wir hatten zwei, eines viel größer als das andere). Wir kamen zu dem Netzwerk-Switch, der den Serverraum ausführte (dies war der Serverraum mit allen internen Servern für das Unternehmen, wobei der Kunde Servern in einem anderen Serverraum gegenüberstand). Der Switch war ein großer Switch der Enterprise-Klasse mit drei darin enthaltenen Netzteilen. Die Vorräte waren N + 1, so dass wir nur zwei benötigten, um den Switch zu betreiben.
Wir nahmen ein Kabel und zogen es heraus. Unglücklicherweise wurden die beiden anderen an eine einzige Steckdosenleiste angeschlossen, die sofort durchbrannte, als die Last der beiden angeschlossenen Netzteile anstieg. Der Sysadmin geriet in Panik und steckte das dritte Kabel ein. Der Switch versuchte zu zünden und versetzte die gesamte Last des Switches in die einzige Stromversorgung. Anstatt dass die Stromversorgung abgeschaltet wurde, explodierte sie in einem Funkenregen, der keine zwölf Zentimeter von meinem Gesicht entfernt war und mich zurück in die Serverschränke sprang.
Aus Instinkt versuchte ich zur Seite zu springen, aber leider befand sich zu meiner Linken eine Wand, und zu zwei gehörte zu meiner Rechten ein sehr großer 6'4 "-Einrichtungs-Typ. Ich habe es irgendwie geschafft, über ihn zu springen oder möglicherweise durch ihn, der abprallt der Compaq Racks (die mit den dünnen Gitterfronten), ohne ein Ganzes in das Rack zu stecken und ohne den Techniker zu berühren.
Danke. Denis, der Mitarbeiter der Einrichtung, war beeindruckt von der Tatsache, dass ich ihn nicht umgeworfen habe.
Mrdenny
20
Irgendwann in meiner Karriere erforderte eine rechtliche Untersuchung in dem Unternehmen, für das ich arbeitete, dass alle E-Mails von "diesem Tag" an aufbewahrt werden, bis etwas anderes gesagt wird. Nachdem wir ein Jahr lang täglich vollständige Backups unserer Exchange-Umgebung gespeichert hatten (1 TB pro Nacht), ging uns der Speicherplatz aus.
Die Austauschadministratoren schlugen vor, dass wir nur jede achte Kopie der E-Mail behalten. Zu diesem Zweck mussten sie die Austauschdatenbanken für einige Tage wiederherstellen, die benötigte E-Mail extrahieren (bestimmte Personen, die für Nachforschungen markiert wurden) und sie erneut archivieren. Sie haben dies für jeden achten Tag der E-Mail für alle unsere Backups getan. Der 8. Tag wurde gewählt, weil Exchange einen Parametersatz hatte, in dem "gelöschte Elemente" 8 Tage lang in der Datenbank gespeichert werden.
Nachdem sie jedes Archiv beendet hatten, ging ich zurück und löschte alle Backups, die älter waren als das, was sie archiviert hatten.
TSM bietet keine einfache Möglichkeit, dies zu tun. Daher müssen Sie Objekte manuell aus der Sicherungsdatenbank löschen.
Ich habe ein Skript geschrieben, das alle Backups löscht, die älter als ein Datum sind, und zwar mittels einer Datumsberechnung, die die Differenz zwischen dem heutigen Datum und dem fraglichen Datum verwendet. An einem Tag musste ich Backups im Wert von ungefähr einem Monat löschen, außer als ich die Datumsberechnung durchführte, machte ich einen Tippfehler und gab das Datum als 7/10/2007 statt als 6/10/2007 ein und führte das Skript aus. Ich habe versehentlich einen ganzen zusätzlichen Monat an Daten gelöscht, was Teil eines sehr wichtigen Rechtsstreits war.
Danach habe ich dem Skript einige Schritte hinzugefügt, um zu bestätigen, dass Sie die Daten löschen möchten, und um Ihnen zu zeigen, was gelöscht werden soll ...
Zum Glück haben sie noch nie Daten verwendet, an deren Aufbewahrung wir so hart gearbeitet haben, und ich habe immer noch meinen Job.
1 TB pro TAG von Exchange-Daten? Wow - ihr hattet 365 Terabyte, die NUR für zusätzliche Exchange-Backups reserviert waren? Das ist ein ernstzunehmender Speicher, den Sie dort haben.
Carl C
28
Du hättest nur einen Tag verloren, wenn du in Europa gewesen
wärst
20
Nach einem langen Tag oder dem Nachverfolgen und Einstellen der Leistung eines riesigen Großrechners (Sie wissen, dass die Bestien einige Stunden brauchen, bis alle Standby-Backup-Sites sich darauf geeinigt haben, dass der Rechner tatsächlich wieder hochgefahren und vollständig synchronisiert wird), streckte ich meine Finger und tippte das Herunterfahren zufrieden -P jetzt in meinem Laptop Eingabeaufforderung, schloss den Deckel, riss das serielle Kabel aus dem Mainframe mit der Vorfreude auf ein schönes kaltes Glas Lager.
Plötzlich höre ich das ohrenbetäubende Geräusch des Herunterfahrens des Großrechners, während mein Laptop immer noch fröhlich X anzeigt.
Während ich darauf wartete, dass der Computer wieder vollständig online ist, entschied ich, dass ich Zeit habe, mein ACPI auf meinem Laptop zum Laufen zu bringen, damit ich nie versucht bin, meinen Laptop herunterzufahren.
Wenn das Herunterdrehen von DOWN-Großrechnern ein verdammtes Geräusch macht, möchte ich nicht, dass es sich mit voller Geschwindigkeit nach oben dreht oder noch schlimmer.
Mircea Chirea
16
Dieser Unfall ist nicht passiert ... aber es ist erwähnenswert:
Ich wurde in ein stark genutztes Rechenzentrum geschickt, um Bandbreitentests auf einer neuen Leitung durchzuführen. Ich ging zum Demark-Raum / IDF, fand einen Platz auf einem der Racks für meinen Testrouter, stellte meine Verbindungen her und startete die Tests. Leider bemerkte ich nicht, dass der serienmäßige Border-Router nicht nur genau auf dem nächsten Rack (fast auf derselben Ebene) war, sondern auch das gleiche Fabrikat und Modell wie mein Test-Router.
Als der Test abgeschlossen war, drückte ich den Netzschalter in die Aus-Position (... stelle es mir in Zeitlupe vor ...) und ich schwöre, als ich gerade Druck ausübte, dämmerte mir, dass der Router in meiner Nähe war ausschalten war derjenige in der Produktion. Mein Herz hörte auf zu schlagen und ich ... naja, nutze deine Fantasie.
Ich verließ das MDF des Rechenzentrums und sah gruselig und blass aus, war aber gleichzeitig froh, dass ich noch einen Job hatte!
Stellen Sie sich vor, es könnte eine dieser Landminen-Situationen gewesen sein. Sie bemerken, dass Ihr Finger auf den Knopf drückt, was Sie getan haben, und Sie können Ihren Finger nicht entfernen, da der Server sonst ausfällt. Also alles, was Sie tun können, steht da und schreit um Hilfe.
Tom Ritter
20
LOL .. hatte nicht darüber nachgedacht! Es wäre eine viel bessere Geschichte gewesen. Ich kann mir vorstellen, wie sich die Netzwerkingenieure des Rechenzentrums zusammenfinden und verschiedene Lösungen für das Problem finden. Vielleicht hätte einer von ihnen eine Frage gestellt (wenn SF verfügbar wäre): "Wie können wir den Netzschalter eines Routers deaktivieren, nachdem er von einem Idioten gedrückt wurde?" (+500 Kopfgeldpunkte)
l0c0b0x
21
Wenn es meiner Arbeit ähnelt, müsste der beleidigende Finger schnell entfernt und durch eine große Menge Klebeband ersetzt werden. (Und dann planen Sie die Ausfallzeit des Computers, um das Band zu entfernen, aber verschieben Sie es für 18 Monate, bis das Band endgültig ausfällt.)
Ian
16
Ich habe versehentlich den Account von jemandem gelöscht und die Namen mit denen verwechselt, die ich vermutlich löschen sollte. Opps
Der coole Teil ist, dass sie nie wussten, was passiert ist. Sie haben den Anruf erhalten, bei dem sie sich nicht anmelden konnten, und der Penny ist über das Konto gefallen, das ich gelöscht habe.
Während ich mit ihnen telefonierte, erstellte ich ihr Konto schnell neu, fügte ihr altes Postfach wieder hinzu (zum Glück löschte Exchange Postfächer nicht sofort) und verwies es zurück auf ihre alten Benutzerdateien.
Dann beschuldigte ich sie, ihr Passwort vergessen zu haben, das ich gerade für sie zurückgesetzt hatte :)
Ich bin hin und her gerissen zwischen + 1'ing die Bälle mussten Sie diese Ausrede verwenden, und -1'ing für den Benutzer anlügen ....
Babu
22
+1 für die Schuld des Benutzers
JJ01
16
Ich habe versehentlich eine tar.gz-Datei auf meiner Gentoo Linux-Box am falschen Ort installiert und sie hat überall Dateien hinterlassen. Dies muss um 1999 gewesen sein, 19 zu der Zeit (danke für die Kommentare unten)
Da ich der Geek bin, der ich bin, habe ich mich entschlossen, mich aus der Arbeit heraus zu skripten, indem ich jede Datei manuell durchging.
Also habe ich versucht:
teerliste evilevilpackage.tar.gz | xargs rm -rf
Es dauerte nicht lange, bis mir auffiel, dass tar auch alle Verzeichnisse auflistete, die das Programm benutzte, darunter '' / usr, / var, / etc '' und einige andere, die ich eigentlich nicht wollte.
STRG-C! STRG-C! STRG-C! Zu spät! Alles weg, Zeit neu installieren. Zum Glück enthielt die Box nichts Wichtiges.
Ich hasse es, die Details zu ärgern, aber ich bin mir ziemlich sicher, dass Gentoo um 2002 begann
Matt Simmons
Ja, 1.0 wurde im Jahr 2002 veröffentlicht. RedHat oder Slackware wären die wahrscheinlichste Wahl im Jahr '98
saschabeaumont
Sofern er nicht wirklich hardcore war, veröffentlichte Enoch Linux 0.75 im Dezember 1999 und wurde schließlich Gentoo mit Version 1.0 im Jahr 2002
Shial
Lebte zu der Zeit im Keller meiner Mutter, also ist es ungefähr zu dieser Zeit, zumindest vor 2000. Ich bin mir nicht sicher, ob es ein harter Kern ist oder nicht. Es war der nächste logische Schritt nach Slackware.
Andrioid,
Slackware hatte .tgz-Pakete.
Marius Gedminas
12
Als kleiner Teil meines früheren Lebens verwaltete ich den Dateiserver des Unternehmens, eine 4: 11-Netware-Box. Es brauchte NIE Eingaben, aber wenn doch, haben Sie ein Remote-Konsolenfenster geöffnet.
Ich war es gewohnt, DOS immer zu benutzen, wenn ich fertig war, gab ich natürlich "Exit" ein. Bei Netware ist "exit" der Befehl zum Herunterfahren des Betriebssystems. Glücklicherweise können Sie den Server erst dann herunterfahren, wenn Sie ihn zuerst "herunterfahren" (für das Netzwerk / die Clients nicht verfügbar machen). Runter "bevor du aussteigen kannst"
Fragen Sie mich, wie oft ich 1: "exit" in der Konsolensitzung und 2: "Down" und dann "Exit" getippt habe, damit ich "beenden kann, was ich versucht habe"
Deshalb benutze ich ^ D, um mich abzumelden. Es wird nur eine Shell-Sitzung beendet.
Hubert Kario
11
Eine andere Geschichte, die nicht passiert ist (puh):
Wir haben jeden Tag inkrementelle Sicherungen auf einem Bandlaufwerk durchgeführt.
Wir haben zufällig ein Band mit Daten geschrieben, um es an eine andere Person zu versenden. Sie sagten: "Wir können Ihre Kassette nicht lesen." Tatsächlich konnten wir es auch nicht. Oder irgendein Band in der Tat.
Wir kauften ein anderes Bandlaufwerk und hielten den Atem an, bis wir es installierten.
Moral der Geschichte. Stellen Sie immer sicher, dass Sie Ihre Backups testen.
Der letzte Ort, an dem ich gearbeitet habe, mein Kollege hatte seine Kinder mit ihm im Serverraum (warum? Ich habe keine Ahnung!).
Er stellte sicher, dass sie weit von den Servern entfernt waren und erklärte seinem 5-Jährigen, dass er KEINE der Server und INSBESONDERE keinen der Netzschalter berühren dürfe.
Tatsächlich hatte er sie direkt neben der Tür ... (Kannst du sehen, wohin das führt ...?)
Der Junge hat keinen der Netzschalter des Servers berührt ... Nein, das wäre zu einfach zu erklären. Stattdessen drückte er die GROSSE ROTE TASTE, die sich in der Nähe der Tür befand ... Die Taste, die die Stromversorgung zum GESAMTEN SERVERRAUM abschaltet !!!
Sofort begannen die Telefonleitungen zu leuchten und fragten sich, warum Exchange, Dateiserver usw. nicht verfügbar waren. Stellen Sie sich vor, Sie versuchen, dem CEO DAS zu erklären!
Wir hatten einen Kurier, der das Gleiche tat. Es war jedoch kein gewöhnlicher Unfall, obwohl plötzlich eine seltsame Metallbox über dem Großen Roten Knopf auftauchte.
Mein Bruder tat dasselbe, als er drei Jahre alt war, als mein Vater an einer Kommunikationsstelle arbeitete. Die Hälfte des Verbindungsnetzes fiel aus, als er den Hauptschalter betätigte, der sich in einer Höhe von 18 Zoll über dem Boden befand. Glücklicherweise wurde das Netzwerk vollständig dupliziert, sodass kein Datenverkehr verloren ging, aber immer noch ...
statisch
@ Marty - das richtige Zitat ist: "Warum? Ich weiß nicht. Er ist auf dem dritten Platz. Und ich gebe keinen Dreck." "Was?" "Ich scheiß drauf." "Oh! Das ist unser Shortstop!"
Warren
10
Ich hatte mal einen Streit mit der APC UPS Überwachungssoftware. Als kleines Unternehmen hatten wir ein paar kleine USVs und verschiedene Server wurden eingerichtet, um sie zu überwachen. Bei den meisten Servern handelte es sich um Linux, aber auf einigen wurde Windows ausgeführt, und daher wurden diese Server verwendet, da die APC-Software nur Windows ist.
Allerdings war die APC-Software zu der Zeit fest programmiert, um anzunehmen, dass die USV, mit der sie kommuniziert, auch den PC einschaltet! Dies war bei diesem Server nicht der Fall, aber ich habe festgestellt, dass dies zu spät ist, um es anzuhalten. Leider demonstrierte der leitende Programmierer einem Partner das Unternehmensprodukt - es war eine webbasierte App, die auf demselben Server lief, auf dem die APC-Software nicht heruntergefahren werden sollte ...
Nun, wir tun es jetzt. Dieser Vorfall war vor 10 Jahren. :-)
staticsan
8
Ich habe einem neuen Systemadministrator eine Tour durch eine Service Manager-App gegeben. Ich sagte: "Wenn Sie diesen Dienst jemals beenden müssten, würden Sie auf diese Schaltfläche klicken, aber Sie sollten dies niemals während des Tages tun." Sie würden nie glauben, wie empfindlich ihre Maustaste war!
Zwei Minuten später hatte der Dienst wieder begonnen, und niemand schien es zu bemerken.
Stolpern über einen Tower-Server, der hinter einem Gestell eingeklemmt war und meinen Kopf auf der Rückseite des Haupt-Cisco-Routers auf dem Weg nach unten traf. Auf diese Weise wird deutlich, wie locker die Netzkabel tatsächlich in den Netzteilen an der Vorderseite des Catalyst 6500 sitzen .
Ja. Wir haben jetzt einen Helm am Haken im Serverraum. Mit meinem Namen drauf.
Antworten:
Ich hatte Spaß daran, den Unterschied zwischen dem Linux-Befehl "killall" (bricht alle Prozesse ab, die dem angegebenen Namen entsprechen, nützlich zum Stoppen von Zombies) und dem Solaris-Befehl "killall" (bricht alle Prozesse ab und hält das System an, nützlich zum Stoppen des Produktionsservers in in der Mitte der Hauptverkehrszeiten und eine Woche lang alle Mitarbeiter zum Lachen zu bringen).
quelle
hostname -f
Linux wird auch der vollqualifizierte Domänenname unter Linux gedruckt. Unter Solaris wird der Hostname auf festgelegt-f
.Ich war für unseren Corporate Web-Proxy verantwortlich, der zu dieser Zeit das Produkt von Netscape war. Beim Herumspielen in den Admin-Formularen (es war eine webbasierte Oberfläche) gab es eine große (und ich schwöre, es war rot) Schaltfläche, die besagte Benutzerdatenbank löschen . Kein Problem, dachte ich. Mal sehen, welche Optionen es mir gibt, wenn ich das treffe. Es wird mit Sicherheit eine Bestätigungsaufforderung angezeigt, wenn keine Optionen verfügbar sind.
Ja, keine Bestätigung. Keine Optionen Keine weiteren Benutzer.
Also ging ich zu Mr. Solaris Sysadmin und sagte, dass ich dringend eine Wiederherstellung von Band brauche, auf die er antwortete: "Ich mache keine Sicherungskopie dieser Box."
"Äh, komm nochmal", erwiderte ich.
"Ich kann diese Box nicht sichern. Sie ist auf meiner Liste der Dinge, die zur Backup-Rotation hinzugefügt werden sollen, aber ich bin noch nicht dazu gekommen."
"Dieser Server ist seit fast 8 Monaten in Produktion!" Ich schrie.
Achselzucken , antwortete er. "Es tut uns leid."
quelle
Vor vielen Jahren hatte das Unternehmen, für das ich arbeitete, einen Client, der jede Nacht eine Sicherung seines NT 4.0-Servers auf ein Jaz-Laufwerk (wie eine Zip-Disk mit hoher Kapazität) ausführte.
Wir haben eine Batch-Datei eingerichtet, die über Nacht als geplanter Job ausgeführt wurde. Jeden Morgen holten sie die letzte Nacht Diskette vom Laufwerk und bevor sie am Abend gingen, legten sie die nächste Diskette in die Sequenz ein.
Wie auch immer, die Batch-Datei sah ungefähr so aus (das Jaz-Laufwerk war Laufwerk F:) ...
Jedenfalls vergaßen sie eines Nachts, den Datenträger einzulegen. Die Änderung von Laufwerk F: schlug fehl (kein Datenträger im Laufwerk), und die Batch-Datei lief weiter. Das Standardarbeitsverzeichnis für die Batchdatei? C :. Zum ersten Mal habe ich gesehen, wie eine Backup-Routine den Server zerstört, der gerade gesichert wurde.
Ich habe an diesem Tag ein wenig über Sysadminning (und Ausnahmebehandlung) gelernt.
Jim.
PS: Das Update? "deltree / y F: \ *. *".
quelle
root @ dbhost # find / -name core -exec rm -f {} \;
Ich: "Du kommst nicht rein? OK. Wie heißt die Datenbank?"
Cu: "Kern".
Ich: "Oh."
quelle
Ich mag die Art und Weise, wie jeder seine Geschichte mit "als ich jung / grün war" bezeichnet, als ob er es nie wieder tun würde. Unfälle können sogar den erfahrensten Profis passieren.
Mein eigener schlimmster Moment ist so schlimm, dass ich immer noch Herzklopfen bekomme, wenn ich darüber nachdenke ...
Wir hatten ein SAN mit Produktionsdaten. Kritisch für das Unternehmen. Mein "Mentor" hat beschlossen, eine Partition zu erweitern, um Speicherplatz freizugeben. Kannst du sehen, wohin das führt? Er sagte, dass die SAN-Software dies live in den Produktionsstunden tun könnte und niemand es merken würde. Alarmglocken hätten läuten sollen, waren aber auffällig leise. Er sagte, er habe es "viele Male zuvor" ohne Probleme gemacht. Aber hier ist die Sache - er veranlasste MICH, auf den Knopf zu klicken, der lautete: "Bist du sicher?"! Als ich neu in der Firma war, nahm ich an, dass dieser Typ wusste, wovon er sprach. Großer Fehler. Die gute Nachricht war, dass die LUN erweitert wurde. Die schlechten Nachrichten waren ... nun, ich wusste, dass es schlechte Nachrichten gab, als ich anfing, Schreibfehler auf der Windows-Box zu sehen.
Ich bin froh, dass ich braune Hosen trug.
Wir mussten erklären, warum 1 TB Daten zur Mittagszeit verschwunden waren. Das war ein sehr, sehr schlechter Tag.
Eigentlich ist es ein gutes Prinzip - bevor Sie etwas tun, an dem Sie Zweifel haben, stellen Sie sich vor, Sie müssten dem Management erklären, wenn etwas schief geht. Wenn Sie keine gute Antwort finden, um Ihre Handlungen zu erklären, dann tun Sie es nicht.
quelle
Nagios hat uns eines Morgens angerufen, als die Geschäftszeiten anfingen zu sagen, dass keine Verbindung zu einem nicht kritischen Server hergestellt werden konnte. Ok, wandere zum Serverraum. Es ist ein alter Server, ein Dell 1650, der im Jahr '02 gekauft wurde, und wir wussten, dass die 1650er Hardwareprobleme hatten. Der PJ drückt den Ein- / Ausschalter. Nichts. Drücken Sie die Taste erneut und halten Sie sie fünf Sekunden lang gedrückt, um das Einschalten zu erzwingen. Dies setzt den Fehlerschutz des BMC außer Kraft, da es ohne DRAC keine Möglichkeit gibt, die BMC-Protokolle zu überprüfen, ohne das Gehäuse einzuschalten.
Das Gerät startet den POST und stirbt dann erneut. Ich stehe darüber und gehe: "Ich rieche Rauch." Wir ziehen den Server auf Schienen heraus, und eines der Netzteile fühlt sich warm an, also zieht der PJ daran und ist dabei, die Box wieder zu schließen. Ich sage: "Nein, das ist kein Netzteilrauch, das ist Motherboardrauch."
Wir öffnen den Koffer erneut und suchen nach der Quelle des brennenden Geruchs. Es hat sich herausgestellt, dass eine Induktionsspule und ein Kondensator den Spannungsregler auf der Hauptplatine etwas weggeblasen haben und geschmolzenes Kupfer und Kondensator auf alles gesprüht haben, wodurch ein paar Sachen kurzgeschlossen wurden und im Grunde ein großes Durcheinander entstanden sind.
Das Schlimmste für mich war zu erkennen, dass ich genug Hardware geraucht hatte, um den Unterschied zwischen dem Geruch eines verbrannten Motherboards und einem verbrannten Netzteil zu erkennen.
quelle
Vor drei Tagen (im Ernst) war ich remote bei einem Schulserver angemeldet und habe Service Pack 2 auf einem Windows Server 2008-Dateiserver installiert.
Ich entschloss mich, den erforderlichen Neustart für einen späten Abend zu planen, wenn die Lehrer nicht angemeldet waren, um ihre Jahresendberichte fertigzustellen. Ich habe etwas geschrieben wie:
... was gut funktioniert haben könnte.
Aber dann habe ich mich selbst erraten. War meine 'shutdown'-Syntax korrekt? Ich habe versucht, die Hilfe zur Verwendung durch Eingabe anzuzeigen
... und verlor sofort meine RDP-Verbindung. In Panik habe ich Google nach der Syntax gefragt. Eine schnelle Suche ergab, dass die Server 2008-Version des Herunterfahrens einen / h-Schalter enthält, der (wie Sie vielleicht vermutet haben) den Computer in den Ruhezustand versetzt.
Die Lehrer riefen mich innerhalb weniger Minuten an, um zu melden, dass sie die Zeugnisse, an denen sie gearbeitet hatten, nicht mehr öffnen oder speichern konnten. Da ich nicht vor Ort war und der Serverraum abgeschlossen war, musste ich die Schulleiterin direkt anrufen und sie durch den Vorgang zum Wiedereinschalten des Geräts führen.
Heute habe ich als Entschuldigung hausgemachte Kekse mitgebracht.
quelle
/?
erste!man shutdown
. Ich weiß, ich werde keine Probleme damit verursachenman
!In früheren Aufträgen hatten wir ein großartiges, selbst entwickeltes System, das jede einzelne E-Mail, die im Unternehmen einging, verließ oder verblieb, protokollierte und archivierte.
Ihre gesamte Mailbox weggeblasen? Kein Problem! Suchen Sie nach einer E-Mail, die Ihnen vor einer Woche / einem Monat / einem Jahr gesendet wurde, aber Sie können sich nicht erinnern, wer sie gesendet hat oder was der Betreff war? Kein Problem! Ab Februar liefern wir Ihnen einfach alles in eine spezielle Mappe.
Irgendwann musste der CEO des Unternehmens die Post überwachen, die sich zwischen einem Konkurrenten und einem verdächtigen internen Verkäufer bewegt. Also haben wir ein Skript erstellt, das jede Nacht ausgeführt wurde, und dem CEO relevante E-Mails vom Vortag zugestellt. Kein Problem!
Etwa einen Monat später kam die Nachricht von einem Doppel-Plus-Dringlichkeitsproblem. Scheint, als der CEO die Liste der an $ OTHERCOMPANY gesendeten Mails durchlas, ist er auf Folgendes gestoßen:
Da der CEO eine wichtige Person war, war er natürlich zu beschäftigt, um in Outlook auf alle "Send Read Receipt" -Dialogfelder zu klicken, und hatte seinen Client so konfiguriert, dass er sie nur alle sendet. Für eine der vom Überwachungsfilter erfassten Nachrichten wurde eine Lesebestätigungsanforderung festgelegt. Ratet mal, was Outlook getan hat? Sicherlich die "heimliche" Überwachung versaut.
Unsere nächste Aufgabe: Hinzufügen von Regeln zum E-Mail-Filter, um ausgehende Lesebestätigungen vom CEO an dieses Unternehmen zu blockieren. Ja, das war der einfachste Weg. :)
quelle
Ahhh, meins war vor ungefähr 10 Jahren, als ich noch nasse Füße bekam. Ich hatte die Freude, Batteriesicherungen auf allen Computern des Programmierers zu installieren. Sie wollten auch, dass die geladene Software vor einem Stromausfall warnt und ordnungsgemäß herunterfährt.
Also habe ich es auf meinem Computer eingerichtet, um zunächst alles zu testen und sicherzustellen, dass alles funktioniert. Also ziehe ich das Netzkabel ab und die Meldung erscheint auf meinem Bildschirm. msgstr "Externer Stromausfall, Beginn des Herunterfahrens des Systems".
Also dachte ich: Hey cool, es hat funktioniert. Aber aus irgendeinem seltsamen Grund, an den ich mich nicht erinnere, wurde diese Nachricht als Netzwerknachricht gesendet, sodass über 200 Computer in der Firma diese Nachricht erhielten, wobei über 100 Benutzer Programmierer waren.
Ja, rede über Massenfreak!
Ich hielt meinen Kopf an diesem Ort für eine Weile tief!
quelle
Ich verwende häufig den Befehl "sys-unconfig" auf Solaris-Computern, um den Computernamensdienst, die IP-Adresse und das Root-Kennwort zurückzusetzen. Ich war auf einem Benutzersystem und habe mich beim Installationsserver für Gebäude angemeldet und etwas nachgeschlagen (als root). Dann habe ich vergessen, dass ich mich auf einem anderen Computer angemeldet habe (nicht beschreibende Eingabeaufforderung "#"). Ich habe den Befehl "sys-unconfig" ausgeführt.
Diese Meldung "Verbindung geschlossen" verwandelte sich langsam in Panik. Auf welchem Computer war ich angemeldet, als ich diesen Befehl ausführte?
Das Schlimmste daran war nicht die harte Zeit, die mir meine Mitarbeiter bereiteten, sondern, dass ich einen Monat später dasselbe tat.
quelle
Ich habe eine ziemlich gute. Zugegeben, es war vor meiner Zeit als Sysadmin, aber immer noch technisch bedingt, also dachte ich mir, ich würde es hinzufügen.
Früher arbeitete ich als Satcom- / Breitbandtechniker für die USAF. Nach meinem Abschluss der technischen Schule war ich in Südkorea stationiert. Kurz nach der Ankunft auf der Station bot sich die Gelegenheit, mit den "Großen", die schon eine Weile dort waren, nach Süden zu fahren und tatsächlich an realen Geräten (dh Produktionsgeräten) zu arbeiten.
Ich ging mit der Besatzung unter und war als eifriger junger Techniker ziemlich aufgeregt über die Aussicht, ein tatsächliches Gerät in die Hände zu bekommen, das LIVE-Militärstimmen- und -Datenverkehr durchlief.
Um mich langsam anzufangen, gaben sie mir ein Handbuch, wandten sich der Abteilung für vorbeugende Wartung zu und wiesen mich in Richtung von vier Racks, die mit mehreren großen digitalen Multiplexern gefüllt waren. Die Ausrüstung war einfach genug, wir hatten die gleiche Ausrüstung in der Technikerschule abgedeckt.
Erste Seite des Handbuchs gelesen; "Schalten Sie den Ditigal-Multiplexer ein. Schalten Sie beide hinteren Schalter ein und warten Sie, bis sich das Gerät einschaltet. Beginnen Sie dann mit den Tests." Ich schaute auf und es war bereits Strom ANGEWENDET!
Ich war auf jeden Fall in einem Dilemma. Da ich nicht wusste, wie ich vorgehen sollte, gab ich mein Bestes: "Ähm ... irgendwie hier verloren", und schaute den Senior an.
Er sah mich an und lachte: "Nein, nein, es ist in Ordnung. Sie können diesen Teil der Checkliste ignorieren." Dann, als er den Ausdruck auf meinem Gesicht bemerkte (seit wir in der Schule NIE gelernt hatten, NIE irgendeinen Teil einer Checkliste zu ignorieren und es war sicher, dass Tod und Zerstörung bevorstanden), warf er einen ernsten Blick auf sein Gesicht Gesicht und sagte: "Ignorieren Sie nur diesen Teil! Folgen Sie dem Rest, auf den Buchstaben!"
Pflichtbewusst durchlief ich die mehrstufigen PM-Anweisungen, glücklich wie eine Muschel und stolz darauf, dass sie eine so niedrige (wenn auch kluge) Technologie diese wichtige Arbeit erledigen ließen.
Irgendwann zwischen der fünften und der sechsten Checkliste für vorbeugende Wartung bei diesen riesigen Multiplexern bemerkte ich eine erhöhte Aktivität um mich herum. Es klingelten die Telefone, die Leute bewegten sich schnell. Fragende Blicke wurden ausgetauscht.
Schließlich rannte eine Gruppe von Leuten auf mich zu, angeführt von einem der älteren Techniker, die mich gestürzt hatten.
"Hey! Wir sehen GROSSE Ausfälle im Datenverkehr und wir haben den Weg zurück zu den Racks, an denen Sie arbeiten, isoliert / zurückverfolgt! Sehen Sie irgendwelche seltsamen ..."
(Zu diesem Zeitpunkt wurde er von einer anderen der Problemlöser abgeschnitten, die sich auf den Weg zu der ersten Gruppe von Multiplexern gemacht hatte, auf denen ich die PMs durchgeführt hatte.)
"HEILIGE NÜSSE! SIE SIND ABGESCHALTET! ER HAT SIE ABGESCHALTET !!!!"
In Kürze sah ich zu, wie sie den ersten Schritt des Handbuchs, "Beide hinteren Schalter auf ON stellen", eilig durchliefen. Als der leitende Techniker fertig war, kam er zu mir und fragte ungläubig, was ich denke von, indem Sie die kritischen Geräte ausschalten.
Verängstigt überreichte ich ihm die Checkliste, der ich gefolgt war, und schwor, dass ich überhaupt nicht abgewichen war. Dass ich es befolgt hatte, "auf den Brief", wie er angewiesen hatte.
Nach einer Weile lachte er und wies darauf hin, wo das Problem lag.
Im Handbuch lautete der letzte Schritt in der Checkliste für vorbeugende Wartung:
"Zeichnen Sie den letzten Messwert der Sonde auf, wischen Sie die Frontplatte ab, entfernen Sie Staub und Partikel und schalten Sie beide hinteren Netzschalter auf OFF."
:)
quelle
Es ist eine Art Sysadmin-Unfall. Insofern müssen Sysadmins gelegentlich eine große Anzahl von Maschinen von Punkt A nach Punkt B transportieren (wobei A und B scheinbar immer durch mehrere Treppen in einem Gebäude ohne Aufzug getrennt sind). Auf der n-ten Reise des Tages hielt ich drei Flüge von der Ladefläche im Keller an, um mich mit jemandem zu unterhalten, der herunterkam, und stützte den Turm in voller Größe mit der Station ab, die ich auf dem inneren Geländer des offenen Treppenhauses schleppte und ... na ja, du hast geraten ... habe meinen Griff leicht verloren. Es stürzte zielsicher geradewegs in den Brunnen und als es den Boden erreichte, ähm ... nicht so sehr mit der Funktionalität für diesen! Insgesamt rettbare Teile: zwei RAM-Sticks, ein Diskettenlaufwerk und eine ISDN-Karte (Gott segne die Ingenieure von Hermstedt!). Alles andere entweder geknackt,
Durch die Gnade Gottes ging niemand darunter, was zum Glück für mich das erste Mal war, dass mein Chef es tat, also musste ich meinen Job behalten. Fühlte mich eine Stunde lang sehr krank.
Moral: Die Schwerkraft gewinnt immer!
quelle
Ich habe ein System für jemanden neu geladen und ihm während des manuellen Sicherungsvorgangs die Frage gestellt: "Haben Sie andere Programme, die Sie verwenden?" und "Gibt es noch etwas Wichtiges, das Sie am Computer tun?"
Er sagte "nein" mehrere Male.
Ich war überzeugt und habe das Laufwerk formatiert.
Ungefähr 30 Minuten später sagte er "Oh mein Gott" und legte beide Hände auf seinen Kopf.
Es stellte sich heraus, dass er über 10 Jahre in einem speziellen Programm an einem Buchskript gearbeitet hatte. Dies war damals, als Programme zum Speichern von Benutzerdaten in ihrem Programmdateiverzeichnis verwendet wurden und ich es vermisste.
Whhhhooooops.
Er war nicht sauer auf mich, aber es war ein ernüchterndes Gefühl.
quelle
Mein persönlicher Favorit ist eigentlich nicht mein, und ich bin sehr froh darüber. Schauen Sie sich hier um.
quelle
Das ist mir nicht passiert, aber ...
Ich arbeitete in einer Firma, die Software entwickelte, die auf Linux-Computern lief, die vom Kunden bereitgestellt wurden. Wir übernehmen im Wesentlichen die Maschinen, konfigurieren sie vollständig gemäß unseren Spezifikationen und übernehmen die gesamte Verwaltung und Überwachung. Im Wesentlichen waren wir ein Team von 10-15 Systemadministratoren, die Tausende von Servern für Hunderte von Kunden verwalteten. Fehler mussten passieren.
Einer unserer Mitarbeiter hat einige Probleme auf einem Server festgestellt (ein Backup, glaube ich) und beschlossen, dass er fsck darauf ausführen soll. Er stoppte alle relevanten Dienste, vergewisserte sich, dass auf dem System kürzlich Backups erstellt wurden, und führte dann den Befehl fsck aus, beklagte sich jedoch, dass das Dateisystem eingehängt war. Da wir remote waren und keinen Remote-Zugriff hatten (DRAC, ILO usw.), konnte er den fsck nicht ausführen, war sich aber ziemlich sicher, dass dies mit dem bereitgestellten Dateisystem sicher war, wenn Sie vorsichtig waren.
Er beschloss, es selbst zu versuchen, indem er fsck auf seiner Root-Partition ausführte, mit vorhersehbaren Ergebnissen - er beschädigte seine Root-Partition und konnte nicht mehr booten.
Verwirrt ging er rüber und sprach mit unserem Teamleiter. Der Lead sagte, er sei sich ziemlich sicher, dass Sie das nicht könnten, und das Teammitglied sagte: "Sicher können Sie das!", Nahm die Tastatur des Leads und zeigte ihm, dass Sie das könnten - indem Sie fsck auf der Root-Partition des Leads ausführen. Welche vollständig beschädigte HIS Root-Partition.
Endresultat? Dank der Tests der Teammitglieder gehen keine Kundendaten verloren. Zwei Tage Mitarbeiterproduktivität gingen verloren, aber das war weitaus weniger wert als die Daten auf der Maschine des Kunden. Und für die Aufzeichnung? Sie können fsck auf einem bereitgestellten Laufwerk ausführen, aber nur, um Daten zu überprüfen. Nicht zu reparieren. Das war der Fehler des Teammitglieds.
-
Um meine eigene Geschichte hinzuzufügen, arbeitete ich in derselben Firma und versuchte, ein Benutzerkennwort zurückzusetzen. Unser System hat es abgelehnt, dass ich es auf das von ihm benötigte Passwort einstelle, da es alte Passwort-Hashes verfolgt und Ihnen das Duplizieren des Passworts verweigert hat. Der Mechanismus war einfach: Er überprüfte Ihr Passwort anhand des neuesten Hashs in der Datenbank.
(Und für den Bericht, es musste das alte Passwort sein, da es sich um ein gemeinsam genutztes Konto handelte und sichergestellt werden musste, dass jeder wusste, dass das neue Passwort unpraktisch war.)
Ich beschloss, einfach in die Benutzerdatenbank zu gehen und die neuen Datensätze zu löschen, damit die älteren verwendet werden. Es ist alles nur SQL (mit einer alten Version von Sybase), also ist es einfach. Zuerst musste ich die Aufzeichnungen finden:
Ich fand die alte Akte, die er aufbewahren wollte; da waren noch zwei davor. Ich entschied mich, klug zu sein und nur etwas Neues als den alten Datensatz zu löschen. Beim Betrachten der Ergebnismenge stellte ich fest, dass das alte Kennwort in der Datenbank ID Nr. 28 und das neue ID Nr. Mehrere Tausend lautete (sehr ausgelastetes System). Das ist ganz einfach, alle alten Zeilen waren> 28, also:
Es gibt nichts Schlimmeres, als ein einfaches Zeilenschneiden durchzuführen und zu sehen, dass 212.500 Zeilen betroffen sind. Glücklicherweise hatten wir zwei Master-Datenbankserver (mit der Benutzer-ID), aber Sybase (zumindest unsere Version) unterstützte die automatische Replikation nicht, sodass die alten Datensätze nicht automatisch gelöscht wurden. Es war eine triviale Angelegenheit, einen Speicherauszug der users_passwords-Tabelle abzurufen und erneut zu importieren. Trotzdem ein ziemlich großes "oh f ** k!" Moment.
quelle
Ein weiterer meiner Favoriten:
Als ich einen Computer und einen lokalen Laserdrucker auf einem System installierte, hatte ich die gute Idee, beide an die USV des Computers anzuschließen. Versuchen Sie jemals, auf einem lokalen Laserdrucker zu drucken, wenn dieser an eine Desktop-USV angeschlossen ist? Wenn Sie es nicht wissen, werden in der Regel alle Verstärker ausgelastet. Dadurch wird der Computer neu gestartet. Und der Druckauftrag wird nie beendet.
Immer den Anruf bekommen: ' Immer wenn ich drucke, startet es meinen Computer neu und druckt nicht !!! '?
Hoppla!
JFV
quelle
DELETE-Anweisung ohne WHERE-Klausel in der Live-Benutzerdatenbank des Kunden.
quelle
kill 1
Als root eingegeben .init
und alle ihre Kinder starben. Und alle ihre Kinder. etc, etc. Hoppla.Was ich tippen wollte, war
kill %1
Nachdem ich begriffen hatte, was ich getan hatte, rannte ich zum Bedienfeld einer BIG- Wollballensortiermaschine und drückte auf den Not-Aus-Schalter. Dies hielt die Maschine an, sich selbst in Stücke zu reißen, da ich gerade die Software getötet hatte, die sie kontrollierte.
quelle
Wir befanden uns mitten in einem Stromausfall und stellten fest, dass die USV mit 112% der konfigurierten Last lief. Dies war kein großes Problem, da wir zu der Zeit mit dem Generator arbeiteten.
Also zogen wir Sicherungsstromkabel, um den Stromverbrauch dieser USV zu reduzieren (wir hatten zwei, eines viel größer als das andere). Wir kamen zu dem Netzwerk-Switch, der den Serverraum ausführte (dies war der Serverraum mit allen internen Servern für das Unternehmen, wobei der Kunde Servern in einem anderen Serverraum gegenüberstand). Der Switch war ein großer Switch der Enterprise-Klasse mit drei darin enthaltenen Netzteilen. Die Vorräte waren N + 1, so dass wir nur zwei benötigten, um den Switch zu betreiben.
Wir nahmen ein Kabel und zogen es heraus. Unglücklicherweise wurden die beiden anderen an eine einzige Steckdosenleiste angeschlossen, die sofort durchbrannte, als die Last der beiden angeschlossenen Netzteile anstieg. Der Sysadmin geriet in Panik und steckte das dritte Kabel ein. Der Switch versuchte zu zünden und versetzte die gesamte Last des Switches in die einzige Stromversorgung. Anstatt dass die Stromversorgung abgeschaltet wurde, explodierte sie in einem Funkenregen, der keine zwölf Zentimeter von meinem Gesicht entfernt war und mich zurück in die Serverschränke sprang.
Aus Instinkt versuchte ich zur Seite zu springen, aber leider befand sich zu meiner Linken eine Wand, und zu zwei gehörte zu meiner Rechten ein sehr großer 6'4 "-Einrichtungs-Typ. Ich habe es irgendwie geschafft, über ihn zu springen oder möglicherweise durch ihn, der abprallt der Compaq Racks (die mit den dünnen Gitterfronten), ohne ein Ganzes in das Rack zu stecken und ohne den Techniker zu berühren.
quelle
Irgendwann in meiner Karriere erforderte eine rechtliche Untersuchung in dem Unternehmen, für das ich arbeitete, dass alle E-Mails von "diesem Tag" an aufbewahrt werden, bis etwas anderes gesagt wird. Nachdem wir ein Jahr lang täglich vollständige Backups unserer Exchange-Umgebung gespeichert hatten (1 TB pro Nacht), ging uns der Speicherplatz aus.
Die Austauschadministratoren schlugen vor, dass wir nur jede achte Kopie der E-Mail behalten. Zu diesem Zweck mussten sie die Austauschdatenbanken für einige Tage wiederherstellen, die benötigte E-Mail extrahieren (bestimmte Personen, die für Nachforschungen markiert wurden) und sie erneut archivieren. Sie haben dies für jeden achten Tag der E-Mail für alle unsere Backups getan. Der 8. Tag wurde gewählt, weil Exchange einen Parametersatz hatte, in dem "gelöschte Elemente" 8 Tage lang in der Datenbank gespeichert werden.
Nachdem sie jedes Archiv beendet hatten, ging ich zurück und löschte alle Backups, die älter waren als das, was sie archiviert hatten.
TSM bietet keine einfache Möglichkeit, dies zu tun. Daher müssen Sie Objekte manuell aus der Sicherungsdatenbank löschen.
Ich habe ein Skript geschrieben, das alle Backups löscht, die älter als ein Datum sind, und zwar mittels einer Datumsberechnung, die die Differenz zwischen dem heutigen Datum und dem fraglichen Datum verwendet. An einem Tag musste ich Backups im Wert von ungefähr einem Monat löschen, außer als ich die Datumsberechnung durchführte, machte ich einen Tippfehler und gab das Datum als 7/10/2007 statt als 6/10/2007 ein und führte das Skript aus. Ich habe versehentlich einen ganzen zusätzlichen Monat an Daten gelöscht, was Teil eines sehr wichtigen Rechtsstreits war.
Danach habe ich dem Skript einige Schritte hinzugefügt, um zu bestätigen, dass Sie die Daten löschen möchten, und um Ihnen zu zeigen, was gelöscht werden soll ...
Zum Glück haben sie noch nie Daten verwendet, an deren Aufbewahrung wir so hart gearbeitet haben, und ich habe immer noch meinen Job.
quelle
Nach einem langen Tag oder dem Nachverfolgen und Einstellen der Leistung eines riesigen Großrechners (Sie wissen, dass die Bestien einige Stunden brauchen, bis alle Standby-Backup-Sites sich darauf geeinigt haben, dass der Rechner tatsächlich wieder hochgefahren und vollständig synchronisiert wird), streckte ich meine Finger und tippte das Herunterfahren zufrieden -P jetzt in meinem Laptop Eingabeaufforderung, schloss den Deckel, riss das serielle Kabel aus dem Mainframe mit der Vorfreude auf ein schönes kaltes Glas Lager.
Plötzlich höre ich das ohrenbetäubende Geräusch des Herunterfahrens des Großrechners, während mein Laptop immer noch fröhlich X anzeigt.
Während ich darauf wartete, dass der Computer wieder vollständig online ist, entschied ich, dass ich Zeit habe, mein ACPI auf meinem Laptop zum Laufen zu bringen, damit ich nie versucht bin, meinen Laptop herunterzufahren.
quelle
Dieser Unfall ist nicht passiert ... aber es ist erwähnenswert:
Ich wurde in ein stark genutztes Rechenzentrum geschickt, um Bandbreitentests auf einer neuen Leitung durchzuführen. Ich ging zum Demark-Raum / IDF, fand einen Platz auf einem der Racks für meinen Testrouter, stellte meine Verbindungen her und startete die Tests. Leider bemerkte ich nicht, dass der serienmäßige Border-Router nicht nur genau auf dem nächsten Rack (fast auf derselben Ebene) war, sondern auch das gleiche Fabrikat und Modell wie mein Test-Router.
Als der Test abgeschlossen war, drückte ich den Netzschalter in die Aus-Position (... stelle es mir in Zeitlupe vor ...) und ich schwöre, als ich gerade Druck ausübte, dämmerte mir, dass der Router in meiner Nähe war ausschalten war derjenige in der Produktion. Mein Herz hörte auf zu schlagen und ich ... naja, nutze deine Fantasie.
Ich verließ das MDF des Rechenzentrums und sah gruselig und blass aus, war aber gleichzeitig froh, dass ich noch einen Job hatte!
quelle
Ich habe versehentlich den Account von jemandem gelöscht und die Namen mit denen verwechselt, die ich vermutlich löschen sollte. Opps
Der coole Teil ist, dass sie nie wussten, was passiert ist. Sie haben den Anruf erhalten, bei dem sie sich nicht anmelden konnten, und der Penny ist über das Konto gefallen, das ich gelöscht habe.
Während ich mit ihnen telefonierte, erstellte ich ihr Konto schnell neu, fügte ihr altes Postfach wieder hinzu (zum Glück löschte Exchange Postfächer nicht sofort) und verwies es zurück auf ihre alten Benutzerdateien.
Dann beschuldigte ich sie, ihr Passwort vergessen zu haben, das ich gerade für sie zurückgesetzt hatte :)
quelle
Ich habe versehentlich eine tar.gz-Datei auf meiner Gentoo Linux-Box am falschen Ort installiert und sie hat überall Dateien hinterlassen. Dies muss um 1999 gewesen sein, 19 zu der Zeit (danke für die Kommentare unten)
Da ich der Geek bin, der ich bin, habe ich mich entschlossen, mich aus der Arbeit heraus zu skripten, indem ich jede Datei manuell durchging.
Also habe ich versucht:
Es dauerte nicht lange, bis mir auffiel, dass tar auch alle Verzeichnisse auflistete, die das Programm benutzte, darunter '' / usr, / var, / etc '' und einige andere, die ich eigentlich nicht wollte.
STRG-C! STRG-C! STRG-C! Zu spät! Alles weg, Zeit neu installieren. Zum Glück enthielt die Box nichts Wichtiges.
quelle
Als kleiner Teil meines früheren Lebens verwaltete ich den Dateiserver des Unternehmens, eine 4: 11-Netware-Box. Es brauchte NIE Eingaben, aber wenn doch, haben Sie ein Remote-Konsolenfenster geöffnet.
Ich war es gewohnt, DOS immer zu benutzen, wenn ich fertig war, gab ich natürlich "Exit" ein. Bei Netware ist "exit" der Befehl zum Herunterfahren des Betriebssystems. Glücklicherweise können Sie den Server erst dann herunterfahren, wenn Sie ihn zuerst "herunterfahren" (für das Netzwerk / die Clients nicht verfügbar machen). Runter "bevor du aussteigen kannst"
Fragen Sie mich, wie oft ich 1: "exit" in der Konsolensitzung und 2: "Down" und dann "Exit" getippt habe, damit ich "beenden kann, was ich versucht habe"
Und dann klingelt das Telefon .....
LOL
quelle
Eine andere Geschichte, die nicht passiert ist (puh):
Wir haben jeden Tag inkrementelle Sicherungen auf einem Bandlaufwerk durchgeführt.
Wir haben zufällig ein Band mit Daten geschrieben, um es an eine andere Person zu versenden. Sie sagten: "Wir können Ihre Kassette nicht lesen." Tatsächlich konnten wir es auch nicht. Oder irgendein Band in der Tat.
Wir kauften ein anderes Bandlaufwerk und hielten den Atem an, bis wir es installierten.
Moral der Geschichte. Stellen Sie immer sicher, dass Sie Ihre Backups testen.
quelle
Der letzte Ort, an dem ich gearbeitet habe, mein Kollege hatte seine Kinder mit ihm im Serverraum (warum? Ich habe keine Ahnung!).
Er stellte sicher, dass sie weit von den Servern entfernt waren und erklärte seinem 5-Jährigen, dass er KEINE der Server und INSBESONDERE keinen der Netzschalter berühren dürfe.
Tatsächlich hatte er sie direkt neben der Tür ... (Kannst du sehen, wohin das führt ...?)
Der Junge hat keinen der Netzschalter des Servers berührt ... Nein, das wäre zu einfach zu erklären. Stattdessen drückte er die GROSSE ROTE TASTE, die sich in der Nähe der Tür befand ... Die Taste, die die Stromversorgung zum GESAMTEN SERVERRAUM abschaltet !!!
Sofort begannen die Telefonleitungen zu leuchten und fragten sich, warum Exchange, Dateiserver usw. nicht verfügbar waren. Stellen Sie sich vor, Sie versuchen, dem CEO DAS zu erklären!
-JFV
quelle
Ich hatte mal einen Streit mit der APC UPS Überwachungssoftware. Als kleines Unternehmen hatten wir ein paar kleine USVs und verschiedene Server wurden eingerichtet, um sie zu überwachen. Bei den meisten Servern handelte es sich um Linux, aber auf einigen wurde Windows ausgeführt, und daher wurden diese Server verwendet, da die APC-Software nur Windows ist.
Allerdings war die APC-Software zu der Zeit fest programmiert, um anzunehmen, dass die USV, mit der sie kommuniziert, auch den PC einschaltet! Dies war bei diesem Server nicht der Fall, aber ich habe festgestellt, dass dies zu spät ist, um es anzuhalten. Leider demonstrierte der leitende Programmierer einem Partner das Unternehmensprodukt - es war eine webbasierte App, die auf demselben Server lief, auf dem die APC-Software nicht heruntergefahren werden sollte ...
quelle
Ich habe einem neuen Systemadministrator eine Tour durch eine Service Manager-App gegeben. Ich sagte: "Wenn Sie diesen Dienst jemals beenden müssten, würden Sie auf diese Schaltfläche klicken, aber Sie sollten dies niemals während des Tages tun." Sie würden nie glauben, wie empfindlich ihre Maustaste war!
Zwei Minuten später hatte der Dienst wieder begonnen, und niemand schien es zu bemerken.
quelle
Stolpern über einen Tower-Server, der hinter einem Gestell eingeklemmt war und meinen Kopf auf der Rückseite des Haupt-Cisco-Routers auf dem Weg nach unten traf. Auf diese Weise wird deutlich, wie locker die Netzkabel tatsächlich in den Netzteilen an der Vorderseite des Catalyst 6500 sitzen .
Ja. Wir haben jetzt einen Helm am Haken im Serverraum. Mit meinem Namen drauf.
quelle