Ich habe ein neues HP ProLiant DL360 G7- System, das ein schwer zu reproduzierendes Problem aufweist. Der Server hängt sich während des POST-Vorgangs zufällig im Bildschirm " Power and Thermal Calibration in Progress ... " auf . Dies erfolgt normalerweise nach einem Warmstart / Neustart vom installierten Betriebssystem.
Das System bleibt zu diesem Zeitpunkt auf unbestimmte Zeit stehen. Durch das Auslösen eines Resets oder eines Kaltstarts über die ILO 3-Leistungsregler wird das System normal und ohne Zwischenfälle gestartet.
Wenn sich das System in diesem Zustand befindet, ist die ILO 3-Schnittstelle voll zugänglich und alle Systemzustandsanzeigen sind in Ordnung (alle grün). Der Server befindet sich in einem klimatisierten Rechenzentrum mit Stromanschlüssen zur PDU. Die Umgebungstemperatur beträgt 17 ° C. Das System wurde vor der Bereitstellung ohne Fehler in eine 24-Stunden-Testschleife für Komponenten gestellt.
Das primäre Betriebssystem für diesen Server ist VMWare ESXi 5. Zunächst haben wir 5.0 und später ein 5.1-Build ausprobiert. Beide wurden über PXE-Boot und Kickstart bereitgestellt. Darüber hinaus testen wir mit Baremetal-Windows- und Red Hat Linux-Installationen.
HP ProLiant-Systeme verfügen über umfassende BIOS-Optionen. Wir haben zusätzlich zum statischen Hochleistungsprofil die Standardeinstellungen ausprobiert. Ich habe den Startbildschirm deaktiviert und bekomme an dieser Stelle nur einen blinkenden Cursor im Vergleich zum obigen Screenshot. Wir haben auch einige VMWare- Best Practices für die BIOS- Konfiguration ausprobiert . Wir haben eine Empfehlung von HP erhalten, die anscheinend ein ähnliches Problem aufzeigt, unser spezifisches Problem jedoch nicht behoben hat.
Ich hatte den Verdacht, dass ein Hardwareproblem vorliegt, und ließ den Anbieter ein identisches System für die Lieferung am selben Tag senden. Der neue Server war bis auf die Festplatten völlig identisch aufgebaut. Wir haben die Festplatten vom alten auf den neuen Server verschoben. Bei der Ersatzhardware trat das gleiche zufällige Bootproblem auf.
Ich habe jetzt beide Server parallel laufen. Das Problem trifft zufällig auf Warmboots. Kalte Stiefel scheinen das Problem nicht zu haben. Ich untersuche einige der esoterischeren BIOS-Einstellungen, wie das Deaktivieren von Turbo Boost oder das vollständige Deaktivieren der Energiekalibrierungsfunktion. Ich könnte diese probieren, aber sie sollten nicht notwendig sein.
Irgendwelche Gedanken?
--bearbeiten--
Systemdetails:
- DL360 G7 - 2 x X5670 Hex-Core-CPUs
- 96 GB RAM (12 x 8 GB Niederspannungs-DIMMs)
- 2 x 146 GB 15 k SAS-Festplatten
- 2 redundante 750-W-Netzteile
Die gesamte Firmware ist auf dem neuesten Stand des HP Service Packs für ProLiant DVD.
Bei einem Anruf bei HP und dem Durchsuchen des Interwebz wurde von einer schlechten ILO 3-Interaktion gesprochen. Dies geschieht jedoch auch mit dem Server auf einer physischen Konsole. HP schlug ebenfalls eine Stromquelle vor, diese befindet sich jedoch in einem Rechenzentrums-Rack, das andere Produktionssysteme erfolgreich mit Strom versorgt.
Besteht die Möglichkeit einer schlechten Wechselwirkung zwischen Niederspannungs-DIMMs und den 750-W-Netzteilen? Dieser Server sollte eine unterstützte Konfiguration sein.
quelle
Antworten:
Nachdem wir ein drittes System in den Mix aufgenommen hatten und das gleiche Problem aufgetreten war, begannen wir, die Umgebung in Frage zu stellen. Ich habe eine Kopie des HP ProLiant Server-Handbuchs zur Fehlerbehebung ausgegraben und das unten gezeigte POST-Problem-Flussdiagramm gefunden.
Wir gingen die Schritte in der Tabelle sorgfältig durch und stellten fest, dass die einzige Konstante auf allen Servern ein KVM-Switch war, der an den Crash-Cart des Rechenzentrums angeschlossen war. Dies war ein USB-fähiger KVM der Consumer-Klasse. Wie der hervorgehobene Knoten im Flussdiagramm zeigt, kennen Sie eine gute KVM? Ich konnte nicht schlüssig antworten.
Also, unplugged wir die Server aus dem KVM - Switch und lief eine automatische Aufladung,
sleep 300; reboot
Sequenz inrc.local
. Die Server hatten damit keine Probleme, unabhängig von den normalen DIMMs, Niederspannungs-DIMMs, der Leistung des Netzteils usw.Dies war alles das Ergebnis einer schlechten Interaktion mit einem USB-KVM-Switch. Aufgrund der Tatsache, dass dies die Konsole war, wurde sichergestellt, dass wir den Fehler sehen würden, wenn wir danach suchen würden. Selbsterfüllend ...
quelle