Im Rahmen der Bereitstellung von Servern führen wir Insight Diagnostics von HP aus, um die Hardware zu testen. Dies ist ein manueller Vorgang. Gibt es eine Möglichkeit, die Ausführung von Insight Diagnostics zu automatisieren?
Es gibt die hpdiags-Software mit der Option "-rd:" "Führen Sie eine Diagnose aller diagnostizierbaren Geräte aus." Nach meinen Tests macht dies nicht viel (es liest nur die SMART-Informationen von den Festplatten). Hat jemand besseres Glück damit gehabt?
Hardware: BladeCenter c7000 mit HP ProLiant BL460c Blades, DL360s.
Betriebssystem: ESXi und Ubuntu.
hardware
hp
hp-proliant
automated-testing
Mark Wagner
quelle
quelle
I updated the ticket with the requested info
- Das hat mich zum Lachen gebracht. Dies ist nicht der Helpdesk.Antworten:
Also werde ich eine andere Frage stellen:
Warum muss vor der Bereitstellung die HP Insight-Hardwarediagnose auf Servern ausgeführt werden?
In meinem obigen Kommentar habe ich darauf hingewiesen, dass es wenig zu gewinnen gibt, wenn dies in großen HP ProLiant-Umgebungen präventiv durchgeführt wird. Ich sollte meine Gedanken dazu klarstellen ...
Schauen wir uns in der Reihenfolge der absteigenden Häufigkeit die Arten von Problemen an, auf die Sie normalerweise stoßen:
Speicherarray und Festplatten : Der RAID-Controller meldet sich an das Betriebssystem, Protokolle, SNMP, E-Mail, ILO und leuchtet hübsche Lichter auf, um den Zustand anzuzeigen.
RAM : Der POST-Prozess erkennt den RAM-Status sowie die Meldung des Systems an das Betriebssystem, Protokolle, SNMP, E-Mail, ILO und das Aufleuchten einer LED-Anzeige auf dem Systems Insight Display (SID) auf der Vorderseite . Außerdem bin ich kein Fan von RAM-Burn-In-Prozessen, da die Fehlererkennung dieser Systeme bereits robust ist.
Thermik und Lüfter : Servertemperatur und Lüftergeschwindigkeit werden von der IAO geregelt. Diese Systeme verfügen über mehr als 30 Temperatursensoren , sodass das Kühlsystem äußerst effizient ist. Dies meldet sich weiterhin an das Betriebssystem, die Protokolle, SNMP, E-Mail und die SID.
Netzteil : Der Netzteilstatus wird an das Betriebssystem, die Protokolle, SNMP, E-Mail und die SID sowie an eine tatsächliche Anzeigelampe am tatsächlichen Netzteil gemeldet.
Allgemeiner Gesundheitszustand : Dies lässt sich mit der SID-Anzeige zusätzlich zur LED für interne Gesundheit und externe Gesundheit auf einen Blick leicht beurteilen. Dies wird auch in den Protokollen, SNMP, E-Mail und ILO des Servers gemeldet.
Ich kann mir keine Bedingungen vorstellen, die vor der Bereitstellung gefunden wurden und die zur Laufzeit oder nach der Installation des Betriebssystems nicht gemeldet wurden.
Die Diagnoseschleife findet normalerweise nichts, wenn sie auf einem System ohne offensichtliche vorherige Probleme ausgeführt wird. Dies liegt hauptsächlich daran, dass der Server das Dienstprogramm oder die Intelligent Provisioning-Firmware POSTEN und starten muss, um das Dienstprogramm auszuführen.
Anders ausgedrückt, jedes Element, das ein schwerwiegender "SPOF" für den Server wäre, würde wahrscheinlich verhindern, dass das System seine Selbstdiagnose ausführt.
Die häufigsten Fehlerelemente sind immer noch ziemlich robust. Festplatten sollten sich in RAID befinden und Hot-Swap-fähig sein. Lüfter und Netzteile können ebenfalls im laufenden Betrieb ausgetauscht werden. Ihr RAM hat ECC-Schwellenwerte und für die meisten ProLiant-Plattformen gibt es Online-Ersatzoptionen. Sie können nichts tun, um durch Ausführen der Diagnose einen Fehler in diesen Komponenten hervorzurufen. Fügen Sie die Tatsache hinzu, dass Sie HP C7000 Blade-Gehäuse verwenden, die interne Redundanzen aufweisen , und dass Ihre Fehlerhäufigkeit relativ gering sein sollte.
quelle