Identifizieren, was einen Neustart des Servers verursacht hat

8

Ich habe einen HP ProLiant DL380p Gen8 , auf dem VMWare ESXi 5.5 ausgeführt wird . Es hat sich in den letzten 24 Stunden in scheinbar zufälligen Intervallen neu gestartet. Es wird nur eine einzige VM ausgeführt, und selbst wenn ich sie herunterfahre, wird der Host immer noch neu gestartet. Dem Server geht nicht der Speicher oder der Speicherplatz aus, und soweit ich das beurteilen kann, ist er nicht überhitzt. Ich habe versucht, Protokolldateien zu durchsuchen, aber es gibt einfach so viel zu sehen.

Was sind die wichtigsten Schritte bei der Diagnose dieses Problems (einschließlich der zu überprüfenden Einstellungen, der zu überprüfenden Dateien, der spezifischen Meldung, die auf Probleme hinweisen würde, sollte ich anfangen, Speicher abzurufen, gibt es eine Diagnose-CD, die all dies für mich erledigt usw.) ?

Ich weiß, dass dies eine sehr breite Frage ist. Gerne stelle ich bei Bedarf Protokolldateien zur Verfügung, um dies spezifischer auf meine Situation abzustimmen.

Nachito
quelle

Antworten:

9

Hier sind einige Vorschläge.

  • Ist Ihre IAO verbunden und konfiguriert? Hier erfahren Sie genau, was mit dem System passiert. Bitte überprüfen Sie das ILO4-Protokoll.

  • Zeigen Sie das IML-Protokoll des Systems an (verfügbar über die Registerkarte "Hardware" von ILO oder vSphere).

  • Gibt es während des Absturzes oder beim POST Anzeigen oder Fehlermeldungen auf dem Bildschirm?

  • Verwenden Sie die HP-spezifische Installation von ESXi (einschließlich zusätzlicher Treiber und Tools)?

  • Welche Version und Build-Nummer von ESXi verwenden Sie?

  • Wenn es sich bei der von Ihnen ausgeführten virtuellen Maschine um einen Windows 2012- oder 2008-Gast handelt, tritt möglicherweise ein NIC-Treiberfehler auf .

  • Überprüfen Sie Ihre Stromanschlüsse. Haben Sie zwei Netzteile? Setzen Sie die Stromkabel einzeln wieder ein.

  • Überprüfen Sie anhand des System Insight-LED-Arrays auf der Vorderseite des Servers, ob ein internes Gesundheitsproblem vorliegt.

Geben Sie hier die Bildbeschreibung ein

ewwhite
quelle
2
Und rufen Sie den Verkäufer auch zur Unterstützung an. Sie können und sollten einige Zeit damit verbringen, sich selbst zu untersuchen. Wenn dies jedoch ein wichtiger Server ist, sollte dies im Rahmen einer Supportvereinbarung erfolgen.
Mfinni
Ich hatte ILO nicht eingerichtet, vielen Dank für den Vorschlag. Sobald es eingerichtet war, überprüfte ich das Protokoll und fand es System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Ich werde es sofort reparieren lassen.
Nachito
Dies bedeutet, dass Ihr Serverraum oder Ihre Umgebung zu warm ist. Dies würde auch zu einem ROTEN Licht auf der Temperatur-LED im obigen Bild führen. Abhängig davon, wann Sie diesen Server bereitgestellt haben, möchten Sie möglicherweise auch Firmware-Updates auf dem System ausführen.
ewwhite
Ich denke, was passiert, ist, dass der Auspuff eines anderen Racks für diese Maschine zu nahe am Einlass ist, da der Raum selbst eine coole 72F ist. Als ich die Maschine beim Neustart im Auge hatte, sah ich den OverTemp-Blitz für den Bruchteil einer Sekunde. Kein Wunder, dass ich das noch nie gesehen habe. Wenn Sie im falschen Moment blinken, verpassen Sie es komplett
nachito
3
@nachito Ich hoffe, Sie wissen, dass die IAO und der Server Ihnen Gesundheitswarnungen
per