Automatisierte Hardwaretests von HP Servern?

9

Im Rahmen der Bereitstellung von Servern führen wir Insight Diagnostics von HP aus, um die Hardware zu testen. Dies ist ein manueller Vorgang. Gibt es eine Möglichkeit, die Ausführung von Insight Diagnostics zu automatisieren?

Es gibt die hpdiags-Software mit der Option "-rd:" "Führen Sie eine Diagnose aller diagnostizierbaren Geräte aus." Nach meinen Tests macht dies nicht viel (es liest nur die SMART-Informationen von den Festplatten). Hat jemand besseres Glück damit gehabt?

Hardware: BladeCenter c7000 mit HP ProLiant BL460c Blades, DL360s.

Betriebssystem: ESXi und Ubuntu.

Mark Wagner
quelle
2
Die kurze Antwort lautet, dass ich mich nicht darum kümmere, dies in großen Umgebungen zu tun. Die Überwachung und Onboard-Diagnose sind ausreichend. Aber können Sie einige Informationen zu den von Ihnen verwendeten Servermodellen bereitstellen? Und vielleicht die beteiligten Betriebssysteme.
ewwhite
Ich habe das Ticket mit den angeforderten Informationen aktualisiert.
Mark Wagner
Installieren Sie HP-spezifische Versionen von ESXi? Installieren Sie HP Management Agents auf den Ubuntu-Systemen? Welche Generation (en) sind die Server? G6? G7? Gen8?
ewwhite
Die HP Management Agents sind sowohl auf ESXi als auch auf Ubuntu installiert. Die Server sind Gen8 und werden Gen9 sein.
Mark Wagner
8
I updated the ticket with the requested info- Das hat mich zum Lachen gebracht. Dies ist nicht der Helpdesk.
Joeqwerty

Antworten:

8

Also werde ich eine andere Frage stellen:

Warum muss vor der Bereitstellung die HP Insight-Hardwarediagnose auf Servern ausgeführt werden?

In meinem obigen Kommentar habe ich darauf hingewiesen, dass es wenig zu gewinnen gibt, wenn dies in großen HP ProLiant-Umgebungen präventiv durchgeführt wird. Ich sollte meine Gedanken dazu klarstellen ...

Schauen wir uns in der Reihenfolge der absteigenden Häufigkeit die Arten von Problemen an, auf die Sie normalerweise stoßen:

  • Speicherarray und Festplatten : Der RAID-Controller meldet sich an das Betriebssystem, Protokolle, SNMP, E-Mail, ILO und leuchtet hübsche Lichter auf, um den Zustand anzuzeigen.

  • RAM : Der POST-Prozess erkennt den RAM-Status sowie die Meldung des Systems an das Betriebssystem, Protokolle, SNMP, E-Mail, ILO und das Aufleuchten einer LED-Anzeige auf dem Systems Insight Display (SID) auf der Vorderseite . Außerdem bin ich kein Fan von RAM-Burn-In-Prozessen, da die Fehlererkennung dieser Systeme bereits robust ist.

  • Thermik und Lüfter : Servertemperatur und Lüftergeschwindigkeit werden von der IAO geregelt. Diese Systeme verfügen über mehr als 30 Temperatursensoren , sodass das Kühlsystem äußerst effizient ist. Dies meldet sich weiterhin an das Betriebssystem, die Protokolle, SNMP, E-Mail und die SID.

  • Netzteil : Der Netzteilstatus wird an das Betriebssystem, die Protokolle, SNMP, E-Mail und die SID sowie an eine tatsächliche Anzeigelampe am tatsächlichen Netzteil gemeldet.

  • Allgemeiner Gesundheitszustand : Dies lässt sich mit der SID-Anzeige zusätzlich zur LED für interne Gesundheit und externe Gesundheit auf einen Blick leicht beurteilen. Dies wird auch in den Protokollen, SNMP, E-Mail und ILO des Servers gemeldet.

Geben Sie hier die Bildbeschreibung ein

Ich kann mir keine Bedingungen vorstellen, die vor der Bereitstellung gefunden wurden und die zur Laufzeit oder nach der Installation des Betriebssystems nicht gemeldet wurden.

Die Diagnoseschleife findet normalerweise nichts, wenn sie auf einem System ohne offensichtliche vorherige Probleme ausgeführt wird. Dies liegt hauptsächlich daran, dass der Server das Dienstprogramm oder die Intelligent Provisioning-Firmware POSTEN und starten muss, um das Dienstprogramm auszuführen.

Anders ausgedrückt, jedes Element, das ein schwerwiegender "SPOF" für den Server wäre, würde wahrscheinlich verhindern, dass das System seine Selbstdiagnose ausführt.

Die häufigsten Fehlerelemente sind immer noch ziemlich robust. Festplatten sollten sich in RAID befinden und Hot-Swap-fähig sein. Lüfter und Netzteile können ebenfalls im laufenden Betrieb ausgetauscht werden. Ihr RAM hat ECC-Schwellenwerte und für die meisten ProLiant-Plattformen gibt es Online-Ersatzoptionen. Sie können nichts tun, um durch Ausführen der Diagnose einen Fehler in diesen Komponenten hervorzurufen. Fügen Sie die Tatsache hinzu, dass Sie HP C7000 Blade-Gehäuse verwenden, die interne Redundanzen aufweisen , und dass Ihre Fehlerhäufigkeit relativ gering sein sollte.

ewwhite
quelle
Das Problem besteht darin, dass (a) nach der Installation des Betriebssystems ein Fehler festgestellt wird (dh der Server befindet sich in Produktion), (b) die Reparatur nicht online durchgeführt werden kann oder die ausgefallene Komponente ein SPOF für den Server ist und (c) der Server ein SPOF ist Es kommt zu Ausfallzeiten (entweder sofort oder wenn das System zur Reparatur heruntergefahren wird). Um die Schlussfolgerung zu verhindern, müssen Sie eine der Bedingungen verhindern. Ich wollte (a) den Fehler vor der Produktion feststellen. Ich schätze Ihre Gründlichkeit bei der Detaillierung der Berichtsfunktionen, aber ich möchte verhindern, dass sie überhaupt erst gemeldet werden müssen, da sie nicht auftreten.
Mark Wagner
Eine HP Diagnoseschleife findet wahrscheinlich nichts, da der Server POST und das Dienstprogramm oder Intelligent Provisioning starten muss, um die Diagnose auszuführen. Die häufigsten Fehlerelemente sind ziemlich robust. Festplatten, Lüfter und Netzteile sind Hot-Swap-fähig, RAM hat ECC-Schwellenwerte. Sie können nichts tun, um Fehler in diesen Komponenten hervorzurufen.
ewwhite