Neulich bemerken wir einen schrecklichen brennenden Geruch aus dem Serverraum. Kurz gesagt, es war eines der Batteriemodule, die in der USV-Einheit verbrannten, aber es dauerte ein paar Stunden, bis wir es herausfanden. Der Hauptgrund, warum wir das herausfinden konnten, war, dass das USV-Display schließlich zeigte, dass das Modul ausgetauscht werden musste.
Hier war das Problem: Der ganze Raum war vom Geruch erfüllt. Es war sehr schwierig, einen Schnüffeltest durchzuführen, da der Geruch alles durchdrungen hatte (ganz zu schweigen davon, dass wir benommen waren). Fast fälschlicherweise haben wir unseren Produktionsdatenbankserver heruntergefahren, weil dort der Geruch am stärksten war. Die Vitalwerte schienen in Ordnung zu sein (die CPU-Temperaturen zeigten 60 Grad Celsius und die Lüftergeschwindigkeiten waren in Ordnung), aber wir waren uns nicht sicher. Es ist einfach so passiert, dass das Akkumodul, das sich entzündet hat, ungefähr die gleiche Höhe wie der Server im Rack hat und nur 3 Fuß entfernt ist. Wäre dies ein echter Notfall gewesen, wären wir kläglich gescheitert.
Realistisch gesehen ist die Wahrscheinlichkeit, dass die eigentliche Serverhardware abbrennt, relativ gering. In den meisten Fällen werden wir den Schuldigen bei der USV suchen. Bei mehreren Racks mit mehreren Ausrüstungsgegenständen kann dies jedoch schnell zu einem Ratespiel werden. Wie kann man schnell und genau feststellen, welches Gerät tatsächlich abbrennt? Mir ist klar, dass diese Frage in hohem Maße von den Umgebungsvariablen wie Raumgröße, Belüftung, Standort usw. abhängt, aber jede Eingabe ist erwünscht.
Antworten:
Der allgemeine Konsens scheint zu sein, dass die Antwort auf Ihre Frage aus zwei Teilen besteht:
Wie finden wir die Quelle des lustigen brennenden Geruchs?
Sie haben das "Wie" ziemlich gut festgenagelt:
Sie können Ihre Chancen, das Problem schnell zu finden, auf verschiedene Weise verbessern - eine verbesserte Überwachung ist häufig die einfachste. Einige Fragen zu stellen:
Wann sollten wir Fehler beheben, anstatt den großen roten Schalter zu betätigen?
Dies ist eine interessantere Frage.
Das Betätigen des großen roten Schalters kann Ihr Unternehmen in Eile eine Menge Geld kosten: Die Freisetzung sauberer Wirkstoffe kann bis zu zehntausenden Dollar kosten, und die Kosten für Ausfall / Wiederherstellung nach einer Notabschaltung (EPA, "drop the room") ) kann verheerend sein.
Sie möchten ein Rechenzentrum nicht fallen lassen, da ein Kondensator in einem Netzteil platzte und den Raum roch.
Umgekehrt kann ein Brand in einem Serverraum Ihrem Unternehmen die Daten / Ausrüstung und vor allem das Leben Ihrer Mitarbeiter kosten.
Die Fehlersuche nach "diesem lustigen brennenden Geruch" sollte niemals Vorrang vor der Sicherheit haben. Daher ist es wichtig, einige klare Regeln für die Fehlersuche nach "Pre-Fire" -Bedingungen zu haben.
Die folgenden Richtlinien sind meine persönlichen Einschränkungen , die ich ohne (oder zusätzlich zu) andere klar definierte Verfahren / Regeln anwende - sie haben mir gute Dienste geleistet und können Ihnen helfen, aber sie könnten mich genauso leicht umbringen oder feuerte morgen, so wenden Sie sie auf eigenes Risiko.
Wenn Sie Rauch oder Feuer sehen, lassen Sie den Raum fallen.
Dies sollte selbstverständlich sein, aber sagen wir es trotzdem: Wenn es ein aktives Feuer gibt (oder Rauch, der darauf hinweist, dass es bald sein wird), räumen Sie den Raum aus, schalten den Strom aus und löschen das Feuer Unterdrückungssystem.
Es kann Ausnahmen geben (übe einen gesunden Menschenverstand aus), aber dies ist fast immer die richtige Handlung.
Wenn Sie mit der Problembehandlung fortfahren, müssen Sie immer mindestens eine weitere Person einbeziehen.
Dies hat zwei Gründe. Erstens möchten Sie nicht in einem Rechenzentrum herumwandern, und plötzlich wird in der Reihe, in der Sie hinuntergehen, ein Regal aufgestellt, und niemand weiß, dass Sie dort sind. Zweitens ist die andere Person Ihre Gesundheitsprüfung bei der Fehlersuche im Vergleich zum Verlassen des Raums. Sollten Sie den Big Red Switch anrufen, haben Sie den Vorteil, dass eine zweite Person der Entscheidung zustimmt (dies hilft, die karrierebeschränkenden Aspekte zu vermeiden) einer solchen Entscheidung, wenn jemand sie später in Frage stellt).
Treffen Sie bei der Fehlersuche umsichtige Sicherheitsmaßnahmen. Stellen
Sie sicher, dass Sie immer einen Fluchtweg haben (ein offenes Ende einer Reihe und einen freien Weg zu einem Ausgang).
Halten Sie jemanden an der EPA / Feuerlösch-Freigabe stationiert.
Nehmen Sie einen Feuerlöscher mit (Halon oder ein anderes Reinigungsmittel, bitte).
Denken Sie an Regel 1 oben.
Im Zweifelsfall den Raum verlassen . Achten Sie auf Ihre Atmung: Verwenden Sie eine Atemschutzmaske oder eine Sauerstoffmaske. Dies kann Ihre Gesundheit im Falle eines chemischen Feuers retten.
Setze ein Limit und halte dich daran.
Genauer gesagt, setze zwei Limits:
Die Grenzen Sie festlegen können auch verwendet werden , um Ihr Team beginnt ein ordnungsgemäßes Abschalten des betroffenen Bereichs zu lassen, so dass , wenn Sie DO ziehen Machen Sie nicht eine Reihe von aktiven Maschinen, und die Wiederherstellungszeit wird viel kürzer, aber denken Sie daran , dass abstürzt Wenn das ordnungsgemäße Herunterfahren zu lange dauert, müssen Sie möglicherweise einige Systeme im Namen der Sicherheit abstürzen lassen.
Vertrauen Sie Ihrem Bauch
Wenn Sie sich zu irgendeinem Zeitpunkt Sorgen um die Sicherheit machen, rufen Sie die Fehlerbehebung ab und räumen Sie den Raum.
Sie können den Raum aufgrund eines Bauchgefühls fallen lassen oder nicht, aber es ist ratsam, ihn in (relativer) Sicherheit außerhalb des Raums neu zu gruppieren.
Wenn keine unmittelbare Gefahr besteht, können Sie die örtliche Feuerwehr hinzuziehen, bevor Sie drastische Maßnahmen wie eine EPA- oder Reinigungsmittelfreigabe ergreifen. (Sie können Ihnen sowieso sagen, dass Sie dies tun sollen: Ihr Auftrag ist es, zuerst die Menschen und dann das Eigentum zu schützen, aber sie sind offensichtlich die Experten im Umgang mit Bränden, also sollten Sie tun, was sie sagen!)
quelle
Eine Wärmebildkamera könnte die Arbeit erledigen und Sie identifizieren lassen, wo die Überhitzung ist. Mit einem solchen Gerät können Sie auch den Ursprung eines Feuers oder eines Brandes in einem mit Rauch gefüllten Raum identifizieren.
quelle
Sie tun keines dieser Dinge , die gesagt wurden. Sie verlassen die gefährliche Umgebung, weil alles, was durch den gesamten Raum gepumpt wird, gesundheitsschädlich ist und Ihre Lunge wirklich durcheinander bringen kann. Wenn in dem Raum ein beißender Geruch von etwas brennt, das Sie nicht finden können, rufen Sie (911 | 112 | 999 | welche Notrufnummer auch immer zu Ihrer Gerichtsbarkeit passt) an und lassen Sie das Feuer (Firma | Abteilung | Brigade) es aussortieren, während sie es tun bist auf Flaschenluft.
Computerteile enthalten alle möglichen interessanten Chemikalien, einschließlich Quecksilber , Cadmium , Blei und viele Kunststoffe in Gehäusen. Beachten Sie, dass alle von mir erstellten Links erklären, wie gering die Exposition bleibenden Schaden oder sogar den schnellen Tod verursachen kann. Dies ist eine Umgebung, die unmittelbar gefährlich für Leben und Gesundheit sein kann .
... also wirklich, wenn etwas brennt, verbringe keine Stunden damit, die Dämpfe zu schnüffeln. Wenn Sie es nicht identifizieren und sofort handeln können, um es einzudämmen, steigen Sie aus.
quelle
Wenn Sie die USV ordnungsgemäß überwacht haben (normalerweise über SNMP), sollte das Gerät selbst die Glocken Ihres Überwachungssystems geläutet haben. Wenn nicht, sprechen Sie mit Ihrem Händler darüber. Entweder hat es eine Fehlfunktion oder Ihr Überwachungssystem ist nicht richtig konfiguriert.
Wenn etwas Aktives tatsächlich brennt, sollte es sich in irgendeiner Weise darüber beschweren oder einfach außerhalb des Netzwerks sein, was ebenfalls einen Alarm auslösen sollte.
Wenn es sich um eine Art Stromschiene handelt, die durch die Isolierung brennt, und nicht um eine intelligente Stromverteilungseinheit, kehren wir zu Ihrer ursprünglichen Frage zurück: "Wie finde ich eine brennende Sache?" Und ich denke, die richtige Antwort lautet: "Schlagen Sie das EPA an und finden Sie es heraus. Ihre Produktionsserver sind wahrscheinlich nicht wichtig genug, um Leben zu riskieren."
quelle
Dies ist eine dieser Situationen, in denen
trifft nicht zu, Sie sollten einen Fachmann anrufen
Alles andere ist einfach nur dumm.
quelle
Als jemand, dessen frühere Karriere als Elektroniker war, habe ich Erfahrung mit "brennenden Gerüchen", die keine Feuer waren. Das ist nicht ungewöhnlich.
Ich würde ein Rechenzentrum nicht wegen eines Geruchs schließen. Rauch ist eine andere Sache, etwas brennt wirklich (normalerweise, aber ein erbsengroßer Tantalkondensator kann einen Raum auch mit Rauch füllen). Es ist erstaunlich, wie viel Geruch eine gebratene Komponente in einem Netzteil verursachen kann.
Ein TIC- oder IR-Thermometer (ein nützliches Werkzeug und viel billiger als ein TIC) würde es nicht unbedingt anzeigen, da die Komponente überhaupt nicht viel Wärme erzeugt und sich in einem Gehäuse befindet. Suchen Sie nach Geräten, die nicht funktionieren, und verwenden Sie Ihre Überwachungstools. Für einen solchen Geruch ist es dann 95% der Zeit ein Netzteil, das die Leistung des gesamten Geräts beeinträchtigt.
quelle
Ich mag die IR-Bilder oder Thermometer-Antworten, aber vielleicht hilft auch ein echter "Geruchsmelder". Schließlich war der Geruch der Auslöser Ihrer Vorsicht. Rauch, Hitze, IR usw. sind alles Ersatz.
So etwas wie diese: . Ich persönlich habe sie noch nie in einem Rechenzentrum verwendet oder gesehen. Aber zumindest theoretisch sollte es ein ordentliches Werkzeug sein. Wenn Sie das Geld haben, das Sie für dieses Spiel ausgeben können, dann ist das.
http://www.sca-shinyei.com/odormeter oder http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
Es gibt Ihnen eine Geruchsstärke sowie Klassifizierung. Es sollte also möglich sein, auf den Geruch einzugehen. Der Teufel steckt natürlich im Detail. Wie empfindlich es ist, störenden Hintergrundgeruch usw. auszublenden
Ein Vorteil gegenüber rein temperaturbasierten Messungen besteht darin, dass der Geruch häufig an einem weitaus früheren Punkt oder Schwellenwert auftritt. Oder wenn die überhitzte Komponente durch einen Körper / eine verdeckte Verkabelung usw. verborgen ist, ist es einfacher, austretende Moleküle zu erkennen als einen Hotspot in Sichtweite.
Eine andere Situation ist ein nicht wärmebedingter Geruch. Wir hatten vorher ein Kühlkreislaufleck und die Kühlmittelgerüche waren auch eigenartig. Ich werde nicht einmal auf den uralten Fall eines toten Nagetiers in den Kanälen eingehen. :)
Ich war überrascht, wie empfindlich diese Sensoren sind. Anscheinend sind H2S / Mercaptane usw. (übliche Täter) bei Sub-ppm-Werten nachweisbar.
quelle