Beurteilung von Geräteschäden nach einem Blitzschlag - Hätte ich mehr planen sollen?

55

Eine Seite meines Kunden hat letzte Woche einen direkten Blitzschlag erhalten (zufällig am Freitag, den 13.! ).

Ich war weit weg von der Baustelle, aber als ich mit jemandem vor Ort zusammenarbeitete, entdeckte ich ein merkwürdiges Schadensmuster. Beide Internetverbindungen waren ausgefallen, die meisten Server waren nicht erreichbar. Ein Großteil des Schadens trat in der MDF auf , aber eine über Glasfaser verbundene IDF verlor auch 90% der Ports auf einem Switch-Stack-Mitglied. Es standen genügend Ersatz-Switch-Ports zur Verfügung, um die Verkabelung an anderer Stelle neu zu verteilen und zu programmieren. Es kam jedoch zu Ausfallzeiten, während wir betroffene Geräte verfolgten.

Dies war ein neues Gebäude / eine neue Lagereinrichtung, und viel Planung steckte in der Gestaltung des Serverraums. Der Hauptserverraum wird von einer APC SmartUPS RT 8000VA -Online-Doppelkonvertierungs-USV mit Generator betrieben. Alle angeschlossenen Geräte wurden ordnungsgemäß mit Strom versorgt. Offsite-Datenreplikation und Systemsicherungen wurden durchgeführt.

Insgesamt war der Schaden (dessen ich mir bewusst bin):

  • Fehlerhafte 48-Port-Line-Karte in einem Cisco 4507R-E-Chassis-Switch .
  • Fehler beim Cisco 2960-Switch in einem 4-Mitglieder-Stack. (oops ... loses Stapelkabel)
  • Mehrere schuppige Ports an einem Cisco 2960-Switch.
  • HP ProLiant DL360 G7 Motherboard und Netzteil.
  • Elfiq WAN Link Balancer.
  • Ein Multitech-Faxmodem.
  • WiMax / Fixed-Wireless Internet Antenne und Power-Injector.
  • Zahlreiche mit PoE verbundene Geräte (VoIP-Telefone, Cisco Aironet Access Points, IP-Sicherheitskameras)

Die meisten Probleme betrafen den Verlust eines gesamten Switch Blades im Cisco 4507R-E. Dies enthielt einen Teil des VMware NFS-Netzwerks und den Uplink zur Firewall des Standorts. Ein VMWare-Host ist ausgefallen, HA hat sich jedoch um die VMs gekümmert, nachdem die Storage Networking-Konnektivität wiederhergestellt wurde. Ich musste eine Reihe von Geräten neu starten / aus- und wieder einschalten, um unkonventionelle Stromzustände zu löschen. Die Zeit zur Genesung war also kurz, aber ich bin gespannt, welche Lektionen gelernt werden sollten ...

  • Welche zusätzlichen Schutzmaßnahmen sollten implementiert werden, um Geräte in Zukunft zu schützen?
  • Wie gehe ich bei Garantie und Ersatz vor? Cisco und HP ersetzen Vertragsgegenstände. Der teure WAN-Link-Balancer von Elfiq hat auf seiner Website einen Klappentext , der im Grunde gesagt hat: " Schade , verwenden Sie einen Netzwerk-Überspannungsschutz ". (Scheint, als ob sie diese Art von Versagen erwarten)
  • Ich war lange genug in der IT, um in der Vergangenheit einen Sturmschaden zu erleiden, aber mit sehr geringen Auswirkungen. zB die Netzwerkschnittstelle eines billigen PCs oder die Zerstörung von Mini-Switches.
  • Kann ich noch etwas tun, um potenziell schuppige Geräte zu erkennen, oder muss ich einfach warten, bis merkwürdiges Verhalten auftritt?
  • War das alles nur Pech oder etwas, das bei der Notfallwiederherstellung wirklich berücksichtigt werden sollte?

Mit genügend Geld ist es möglich, alle Arten von Redundanzen in eine Umgebung zu integrieren. Aber was ist hier ein angemessenes Gleichgewicht zwischen vorbeugendem / durchdachtem Design und effektivem Einsatz von Ressourcen?

ewwhite
quelle
3
Einige gute technische Antworten unten, aber meiner Erfahrung nach geht nichts über eine gute Versicherungspolice. Wörtlich eine Versicherungspolice. Sicher, es hilft nicht, das Problem zu vermeiden, und es verhindert nicht, dass Kunden Sie anschreien, aber es hilft beim Ersetzen der fehlerhaften Geräte, die der Anbieter nicht berührt.
Mark Henderson
@ MarkHenderson Insurance kommt durch ... aber es ist schon 6 Wochen und einige kleine Probleme tauchen jetzt auf.
ewwhite

Antworten:

23

Vor ein paar Jobs war eines der Rechenzentren für den Ort, für den ich arbeitete, eine Etage unter einer sehr großen Antenne. Dieser große, dünne Metallgegenstand war der höchste Gegenstand in der Gegend und wurde alle 18 Monate oder so vom Blitz getroffen. Das Rechenzentrum selbst wurde um 1980 gebaut, daher würde ich es nicht als das modernste bezeichnen, aber sie hatten langjährige Erfahrung im Umgang mit Blitzschäden (die seriellen Kommunikationskarten mussten jedes Mal ausgetauscht werden , was ein Versuch ist, wenn die Kommunikation funktioniert) Boards befinden sich in einem System, in dem seit 10 Jahren keine neuen Teile mehr hergestellt wurden.

Eine Sache, die von den alten Hasen aufgeworfen wurde, ist, dass all diese Störströme einen Weg um alles finden und sich in einer gemeinsamen Erde ausbreiten können, sobald sie sich überbrücken. Und aus Luftspalten heraus überbrücken können. Ein Blitz ist ein Ausnahmefall, bei dem normale Sicherheitsstandards nicht ausreichen, um Lichtbögen zu verhindern, und so weit gehen, wie es Energie hat. Und es hat viel zu bieten. Wenn genügend Energie vorhanden ist, kann es von einem Gitter mit abgehängter Decke (möglicherweise wird einer der Aufhängungsdrähte an einer Schlaufe mit Verbindung zu einem Gebäudeträger im Zement aufgehängt) zur Oberseite eines 2-Säulen-Racks und von dort in das Gitter geführt werden Goodies vernetzen.

Wie bei Hackern gibt es nur so viel, was Sie tun können. Ihre Einspeisungen haben alle Trennschalter, die Störspannungen begrenzen, aber Ihre Niederspannungs-Netzwerkgeräte tun dies so gut wie nie und bilden einen gemeinsamen Pfad für die Weiterleitung eines extrem energiereichen Stroms.


Das Erkennen eines möglicherweise schuppigen Kits ist etwas, das ich theoretisch zu tun weiß, aber nicht in der Realität. Wahrscheinlich ist es Ihre beste Wahl, die verdächtige Ausrüstung in einem Bereich abzulegen und die Temperatur im Raum absichtlich in den oberen Bereich des Betriebsbereichs zu bringen, um zu sehen, was passiert. Führen Sie einige Tests durch, laden Sie das Heck heraus. Lass es dort für ein paar Tage. Die zusätzliche Wärmebelastung gegenüber bereits vorhandenen elektrischen Schäden kann einige Zeitbomben aussortieren.

Es hat definitiv die Lebensdauer einiger Ihrer Geräte verkürzt, aber es ist schwierig herauszufinden, welche. Stromkonditionierungsschaltungen in Netzteilen weisen möglicherweise beschädigte Komponenten auf und versorgen den Server mit verschmutztem Strom. Dies kann nur mithilfe spezieller Geräte zum Testen von Netzteilen festgestellt werden.


Blitzeinschläge sind nichts, was ich für die DR außerhalb eines DC in einer Einrichtung mit einem riesigen Blitzableiter auf dem Dach in Betracht gezogen habe . Generell ist ein Streik eines jener Dinge, die so selten passieren, dass sie unter dem Einfluss von „Gottes Willen“ gemischt und weiterverfolgt werden.

Aber ... du hast jetzt einen gehabt. Es zeigt, dass Ihre Einrichtung mindestens einmal die richtigen Bedingungen hatte. Es ist Zeit, eine Einschätzung zu erhalten, wie anfällig Ihre Einrichtung für die richtigen Bedingungen ist, und entsprechend zu planen. Wenn Sie jetzt nur an die DR-Auswirkungen von Blitzen denken, halte ich das für angemessen.

sysadmin1138
quelle
Ich war gestern vor Ort, um zu bewerten. Unordentlich. Ich habe den Gehäuseschalter repariert und die Beschädigung einiger Server überprüft. Besteht die Möglichkeit, dass die WiMax / Fixed-Wireless-Antenne auf dem Dach der Einstiegspunkt war? Alles auf seinem Weg war betroffen:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
ewwhite
1
Das klingt ... ziemlich wahrscheinlich.
mfinni
1
@ewwhite Das klingt sehr wahrscheinlich. Der Schaden, als dieser alte DC getroffen wurde, war sehr ähnlich.
sysadmin1138
Ich möchte dem Beitrag von sysadmin1138 etwas Weisheit verleihen (Entschuldigung, ich darf noch keinen Kommentar abgeben, wollte nicht, dass dies eine Antwort ist) ... Erdungsstifte an Stromkabeln dienen der MENSCHLICHEN Sicherheit, nicht Ihren Geräten. In kleinen Büros; Ich halte wichtige Maschinen vom Boden fern (Holzkiste, Gummimatte) und nicht geerdete Stecker / Adapter UPS-> Wall. Ich bin sicher, OSHA hasst es, aber die Computer lieben es. Es hilft auch, wenn der Gurt abgeschaltet und wieder eingeschaltet wird, da diese Spannungsspitzen alles töten können. Ich war in einem Gebäude, als eine sehr, sehr große Libert USV / Wechselrichter durchgebrannt ist, und musste ihren
Technikern
7

Ich habe über diese Frage nachgedacht, seit sie vor kurzem wieder oben auf der Startseite bearbeitet wurde.

Ich stelle frei fest, dass für Leute wie sysadmin1138, die sich mit Installationen befassen müssen, die für große Blitzeinschläge auf dem Dach des DC sehr attraktiv sind, eine spezielle Notfallplanung für einen großen Einschlag sinnvoll ist. Aber für die meisten von uns ist dies ein einmaliger Umstand, und ich dachte, eine Antwort, die allgemeiner für den Rest von uns geeignet ist, könnte einen gewissen Wert haben.

Man kann sich alle Arten von Bedrohungen für die Filmhandlung vorstellen . Szenarien, die auf jeden Fall eintreten könnten, würden Ihre Geschäftstätigkeit in diesem Fall zweifellos zum Erliegen bringen, aber es gibt keinen Grund zu der Annahme, dass die Wahrscheinlichkeit eines Eintretens erhöht ist. Sie kennen die Art der Sache; Flugzeugschlag / Blitzschlag / Öldepot in der Nähe explodiert / jedes andere plausible Szenario mit Hintergrundrisiko.

Für jede dieser Maßnahmen könnte ein spezifischer Minderungsplan aufgestellt werden, aber ich würde vorschlagen, dass dies - modulo meine obige Bestimmung - keinen geschäftlichen Sinn ergibt . Wie Schneier im oben genannten Wettbewerb betont, macht es eine Bedrohung, gegen die eine konkrete Planung lohnend oder sogar wünschenswert ist, nur deshalb nicht, weil Sie sich vorstellen können, dass etwas Schreckliches passiert. Was macht ein gutes Geschäft sinnvoll ist ein Allzweck-, gut dokumentiert, getestet Business - Continuity - Plan.

Sie sollten sich fragen, wie hoch die Geschäftskosten für einen vollständigen Standortverlust für verschiedene Zeiträume (z. B. 24 Stunden, 96 Stunden, eine Woche, einen Monat) sind, und versuchen, die Wahrscheinlichkeit jedes Auftretens zu quantifizieren. Es muss sich um eine ehrliche Analyse der Betriebskosten handeln, die von allen Unternehmensebenen durchgeführt wird. Ich habe an einem Standort gearbeitet, an dem die allgemein akzeptierte Ausfallzeit £ 5,5 Millionen / Stunde betrug (und das war vor 20 Jahren, als fünf Millionen Pfund viel Geld waren). Die allgemeine Übereinstimmung mit dieser Zahl machte so viele Entscheidungen so viel einfacher, weil sie nur noch eine Frage der Mathematik waren.

Ihr Budget ist der projizierte Verlust multipliziert mit der jährlichen Wahrscheinlichkeit dieses Verlusts. Jetzt sehen Sie, was Sie tun können, um diese Bedrohung für das Budget zu mindern.

In einigen Fällen wird dies zu einem vollständigen Standby-Rechenzentrum mit kalter Ausrüstung ausgeführt, das rund um die Uhr einsatzbereit ist. Dies kann ein kleines Standby-Rechenzentrum bedeuten, sodass die Kundeninteraktion mit einer sehr reduzierten Anzahl von Telefonisten fortgesetzt werden kann, und eine Warnung der Placeholder-Website vor Störungen. Dies kann bedeuten, dass an Ihrem Hauptstandort eine zweite, redundant geroutete Internetverbindung besteht, die bis zur Inanspruchnahme nicht funktioniert. Dies kann, wie Mark Henderson oben bemerkt, eine Versicherung bedeuten (aber eine Versicherung, die sowohl die Geschäftsverluste als auch die tatsächlichen Kosten der Rückforderung abdeckt); Wenn Sie Ihr BC-Budget für ein einzelnes Blatt Papier ausgeben können, das im Katastrophenfall alle erwarteten Kosten abdeckt, ist es möglicherweise sinnvoll, dieses Blatt Papier zu kaufen. Vergessen Sie jedoch nicht, das Versagen des Versicherers zu berücksichtigenin Ihren Geschäftsrisikoplan. Dies kann bedeuten, dass die Wartungsverträge für bestimmte Kerngeräte auf extrem teure Vier-Stunden-Reparaturverträge aufgerüstet werden. Nur Sie können wissen, was für Ihr Unternehmen Sinn macht.

Und sobald Sie diesen Plan haben, müssen Sie ihn wirklich testen (mit der möglichen Ausnahme von versicherungsbasierten). Ich habe an einem Standort gearbeitet, an dem wir eine komplette Kältestelle im Kleinmaßstab hatten, die bereit war, 45 Autominuten von unserem Hauptstandort entfernt umzuschneiden. Wenn wir ein Problem hatten, bei dem das Kernnetzwerk heruntergefahren wurde, haben wir schließlich versucht, es live zu beheben, anstatt auf den kalten Standort zu wechseln, und dannKern fixieren und zurückschneiden. Einer der Gründe für das Fehlschlagen der Umstellung war, dass wir nicht genau wussten, wie lange es dauern würde, um umzuschneiden und zurückzuschneiden. Daher wusste niemand wirklich, wie lange es dauern sollte, bis die Entscheidung getroffen wurde, zu schneiden, ohne zu kürzen, und so gab es - verständlicherweise - Zurückhaltung bei der Entscheidung, zu kürzen. Nachdem wir 14 Stunden später wieder online waren, rollten die Köpfe. nicht wegen des Ausfalls an sich , sondern weil viel Geld für eine Einrichtung ausgegeben worden war, um einen mehrtägigen Ausfall zu mildern, der während eines solchen Ausfalls ungenutzt geblieben war.

Beachten Sie abschließend, dass die Funktion ausgelagerter Komponenten Ihres Geschäftsplans nicht garantiert ist. Ihre Geschäftsleitung könnte dort sitzen und denken: " Wenn wir die Server in die Cloud stellen, sind sie einfach immer da, und wir können die Sysadmins entlassen. " Nicht so. Wolken können wie alles andere versagen; Wenn Sie kritische Komponenten an einen Anbieter ausgelagert haben, müssen Sie lediglich die Möglichkeit aufheben, die Ausfallwahrscheinlichkeit dieser Komponenten abzuschätzen. SLAs sind alle sehr gut, aber sie sind bedeutungslos, es sei denn, sie werden mit erheblichen Leistungsmängeln belegt. Warum sollte Ihr Provider zusätzliches Geld dafür ausgeben, verfügbar zu bleiben, wenn er nur das Geld bündeln und Ihre Servicegebühren für den Zeitraum von zurückerstatten könnte? Nichtverfügbarkeit? Um zuverlässig zu sein, müssen Ihre SLAs mit Strafen verbunden sein, die in etwa den Kosten entsprechen, die Ihrem Unternehmen durch den Ausfall entstehen. Ja, das wird die Kosten für das Outsourcing erheblich erhöhen. und ja, das ist durchaus zu erwarten.

MadHatter
quelle
2
Ich sollte hinzufügen ... diese Seite wurde seit dem ursprünglichen Beitrag dreimal vom Blitz getroffen . Der Grund wurde auf eine unzureichende / nicht vorhandene elektrische Erdung in mehreren Bereichen der Anlage zurückgeführt. Wir verklagten die Vertragspartner und die Versicherung kümmerte sich um den Großteil des Ersatzes.
Ewwhite
2
Entschuldigung, ewwhite, meine Eröffnungsklausel hätte auch klarer auf dich zutreffen sollen. An Standorten, an denen ein Risiko über dem Hintergrund liegt, ist es für mich sinnvoll, zumindest eine speziell auf dieses Risiko ausgerichtete Risikominderung in Betracht zu ziehen . Meine Antwort war mehr für alle anderen, die Ihre Frage lesen und anfangen könnten zu denken, " gut, ich habe auch keinen Blitzplan, vielleicht sollte ich ".
MadHatter
6

Es kommt immer darauf an, wie viel Sie ausgeben möchten. Ich habe nicht genug Wissen, um ausführlich darüber zu sprechen, aber ich war in einem großen Pharma-Rechenzentrum, das einen Blitzschlag ausgeführt und etwas durchgebrannt hat, das ein mehrfach redundanter Ableiter sein sollte (und richtig konstruiert wurde) , wurde aber falsch implementiert, damit etwas durchkam.)

Was war die maximale Spitze, die Ihre USV hätte verhindern können? Es sollte eine Bewertung haben. Anscheinend war der Streik direkt genug, um das zu übertreffen, oder etwas lief um die UPS-Zufuhr herum, wie ein schlechter Boden. Also, vielleicht haben Sie Ihre Power - Design überprüfen, festzustellen , wie wahrscheinlich ein weiterer Streik ist, vergleichen Sie die Kosten für Ausfallzeiten X Wahrscheinlichkeit im Vergleich zu Sanierung, und vielleicht ein Elektriker haben die Möglichkeit , einen guten Überblick geben , um sicherzustellen, dass alles richtig geerdet - und einige schnelle Lesen Shows Die Erdung für Sicherheit / Code ist nicht so intensiv wie die Erdung zur Verhinderung von Blitzschäden.

mfinni
quelle
Die USV scheint in Ordnung zu sein. Es gab Probleme in mehreren Gebäudeteilen, aber in den wichtigsten technischen Daten der USV ist angegeben : "
Mehrpolige
OK, klingt gut. Dann hat es sich wahrscheinlich auf andere Weise eingeschlichen, wenn Ihr Stromnetz fest ist.
Mfinni