HP ProLiant DL360 G7 bleibt auf dem Bildschirm „Power and Thermal Calibration“ hängen

41

Ich habe ein neues HP ProLiant DL360 G7- System, das ein schwer zu reproduzierendes Problem aufweist. Der Server hängt sich während des POST-Vorgangs zufällig im Bildschirm " Power and Thermal Calibration in Progress ... " auf . Dies erfolgt normalerweise nach einem Warmstart / Neustart vom installierten Betriebssystem.

Bildbeschreibung hier eingeben

Das System bleibt zu diesem Zeitpunkt auf unbestimmte Zeit stehen. Durch das Auslösen eines Resets oder eines Kaltstarts über die ILO 3-Leistungsregler wird das System normal und ohne Zwischenfälle gestartet.

Wenn sich das System in diesem Zustand befindet, ist die ILO 3-Schnittstelle voll zugänglich und alle Systemzustandsanzeigen sind in Ordnung (alle grün). Der Server befindet sich in einem klimatisierten Rechenzentrum mit Stromanschlüssen zur PDU. Die Umgebungstemperatur beträgt 17 ° C. Das System wurde vor der Bereitstellung ohne Fehler in eine 24-Stunden-Testschleife für Komponenten gestellt.

Das primäre Betriebssystem für diesen Server ist VMWare ESXi 5. Zunächst haben wir 5.0 und später ein 5.1-Build ausprobiert. Beide wurden über PXE-Boot und Kickstart bereitgestellt. Darüber hinaus testen wir mit Baremetal-Windows- und Red Hat Linux-Installationen.

HP ProLiant-Systeme verfügen über umfassende BIOS-Optionen. Wir haben zusätzlich zum statischen Hochleistungsprofil die Standardeinstellungen ausprobiert. Ich habe den Startbildschirm deaktiviert und bekomme an dieser Stelle nur einen blinkenden Cursor im Vergleich zum obigen Screenshot. Wir haben auch einige VMWare- Best Practices für die BIOS- Konfiguration ausprobiert . Wir haben eine Empfehlung von HP erhalten, die anscheinend ein ähnliches Problem aufzeigt, unser spezifisches Problem jedoch nicht behoben hat.

Ich hatte den Verdacht, dass ein Hardwareproblem vorliegt, und ließ den Anbieter ein identisches System für die Lieferung am selben Tag senden. Der neue Server war bis auf die Festplatten völlig identisch aufgebaut. Wir haben die Festplatten vom alten auf den neuen Server verschoben. Bei der Ersatzhardware trat das gleiche zufällige Bootproblem auf.

Ich habe jetzt beide Server parallel laufen. Das Problem trifft zufällig auf Warmboots. Kalte Stiefel scheinen das Problem nicht zu haben. Ich untersuche einige der esoterischeren BIOS-Einstellungen, wie das Deaktivieren von Turbo Boost oder das vollständige Deaktivieren der Energiekalibrierungsfunktion. Ich könnte diese probieren, aber sie sollten nicht notwendig sein.

Irgendwelche Gedanken?

--bearbeiten--

Systemdetails:

  • DL360 G7 - 2 x X5670 Hex-Core-CPUs
  • 96 GB RAM (12 x 8 GB Niederspannungs-DIMMs)
  • 2 x 146 GB 15 k SAS-Festplatten
  • 2 redundante 750-W-Netzteile

Die gesamte Firmware ist auf dem neuesten Stand des HP Service Packs für ProLiant DVD.

Bei einem Anruf bei HP und dem Durchsuchen des Interwebz wurde von einer schlechten ILO 3-Interaktion gesprochen. Dies geschieht jedoch auch mit dem Server auf einer physischen Konsole. HP schlug ebenfalls eine Stromquelle vor, diese befindet sich jedoch in einem Rechenzentrums-Rack, das andere Produktionssysteme erfolgreich mit Strom versorgt.

Besteht die Möglichkeit einer schlechten Wechselwirkung zwischen Niederspannungs-DIMMs und den 750-W-Netzteilen? Dieser Server sollte eine unterstützte Konfiguration sein.

ewwhite
quelle
2
Gibt es eine Möglichkeit, die Festplatten als mögliche Ursache zu beseitigen? Gibt es eine Chance, die Sie mit alternativen SAS- oder SATA-Festplatten testen können?
ErnieTheGeek
Ja, getestet mit einem bekanntermaßen guten Festplattensatz im zweiten System. Sie laufen parallel.
Ewwhite
1
Das einzige Mal, dass ich dies jemals gesehen habe, war in einem System (auch einem DL360 G7), in dem ich versuchte, eine Karte eines anderen Herstellers als HP zu verwenden, um Speicherplatz bereitzustellen. Als ich sowohl die SmartArray-Karte als auch diese andere darin hatte, tat es das. Als ich eines herausnahm, verging es. Das ist nicht dein Problem, aber ich gebe weiter, worauf ich gestoßen bin.
sysadmin1138
1
Möglicherweise etwas Netzwerkbezogenes? Versuchen Sie zu duplizieren, ohne mit dem Netzwerk verbunden zu sein.
ErnieTheGeek
1
@TheCleaner Das Deaktivieren von Dynamic Power Capping ist auf G7-Servern keine Option. Es wurde für die Gen8 ProLiant-Serie eingeführt.
ewwhite

Antworten:

43

Nachdem wir ein drittes System in den Mix aufgenommen hatten und das gleiche Problem aufgetreten war, begannen wir, die Umgebung in Frage zu stellen. Ich habe eine Kopie des HP ProLiant Server-Handbuchs zur Fehlerbehebung ausgegraben und das unten gezeigte POST-Problem-Flussdiagramm gefunden.

Bildbeschreibung hier eingeben

Wir gingen die Schritte in der Tabelle sorgfältig durch und stellten fest, dass die einzige Konstante auf allen Servern ein KVM-Switch war, der an den Crash-Cart des Rechenzentrums angeschlossen war. Dies war ein USB-fähiger KVM der Consumer-Klasse. Wie der hervorgehobene Knoten im Flussdiagramm zeigt, kennen Sie eine gute KVM? Ich konnte nicht schlüssig antworten.

Also, unplugged wir die Server aus dem KVM - Switch und lief eine automatische Aufladung, sleep 300; rebootSequenz in rc.local. Die Server hatten damit keine Probleme, unabhängig von den normalen DIMMs, Niederspannungs-DIMMs, der Leistung des Netzteils usw.

Dies war alles das Ergebnis einer schlechten Interaktion mit einem USB-KVM-Switch. Aufgrund der Tatsache, dass dies die Konsole war, wurde sichergestellt, dass wir den Fehler sehen würden, wenn wir danach suchen würden. Selbsterfüllend ...

ewwhite
quelle
2
Wow, das ist gut! Ich bin froh, dass du das geklärt hast.
Nedm
7
Heilige Krähe. +1 zu Fragen und Antworten. Gute Arbeit; Ich hätte das wahrscheinlich übersehen. "Bekannt gut"? Natürlich ist es gut bekannt - es funktioniert, nicht wahr?
MFINNI
Vielen Dank!!! Es war definitiv das KVM. Trennen Sie einfach das Video und schließen Sie den Monitor direkt an, und der Server läuft wieder einwandfrei. Nach dem Laden des Betriebssystems habe ich den KVM wieder angeschlossen. Ich glaube, das Problem wurde verursacht, als ich versehentlich die Kabel auf der Rückseite des Servers berührt habe. Das System hat angehalten und reagiert nur auf diesen Hinweis.
1
Irgendeine Idee, wie ein KVM dies verursachen würde?
TheLQ
@TheLQ Ein billiges KVM-Gerät für Endverbraucher war hier die Ursache. Möglicherweise liegt auch ein Problem mit der Tastatur vor.
Ewwhite