Wie finde ich ein fehlerhaftes Speichermodul aus der MCE-Nachricht?

11

Ich versuche, die MCE-Nachricht zu verstehen, um herauszufinden, welches Speichermodul auf einem Server fehlerhaft ist. Diese Nachricht wird auf /var/log/kern.logeinem Server angezeigt , der heute zweimal einfriert.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Ich vermute ein schlechtes Speichermodul. Der Server ist ein 2x Xeon E5-2650 mit 8x8Go-Speichermodulen (8 Speichersteckplätze für jede CPU)

Hier ist die Speichermodulpopulation aus lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Wie Sie feststellen können, befindet sich auf der Bank Nr. 5 kein Speichermodul. Meine Frage lautet also: Stimmen Sie zu, dass es sich bei dieser Nachricht um einen Speicherfehler handelt? Und wenn ja, wie finde ich das zu ersetzende Modul?

Matg
quelle

Antworten:

10

Diese Fehler stammen aus der edac_mc-Klasse EDAC - Error Detection And Correction des Geräts.

Die Ereignisse, die Sie empfangen, sind CE-Ereignisse (korrigierbare Fehler). Dies sind Anzeichen dafür, dass ein DIMM zu versagen beginnt.

EDAC hat keine spezifischen Informationen darüber gemeldet, auf welche Speicherzeile oder welchen Kanal es sich bezieht. Daher ist es schwierig zu sagen, welche ersetzt werden soll, bis diese fehlschlägt.

Aber schauen Sie sich an: / sys / Geräte / System / edac / mc / mc * und dies könnte Ihnen ein wenig mehr darüber sagen, welche Zeile / dimm die fehlerhafte sein könnte.

Zum Beispiel

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

Schauen Sie sich das Feld ce_count an.

Als Randnotiz :

Das System kann weiterhin betrieben werden, jedoch mit geringerer Sicherheit. Vorbeugende Wartung und proaktiver Teileaustausch von Speicher-DIMMs mit CEs können die Wahrscheinlichkeit von gefürchteten UE-Ereignissen (nicht korrigierbarer Fehler) und Systempaniken verringern.

Weitere Infos zu edac hier:

https://www.kernel.org/doc/Documentation/edac.txt

kamger
quelle
oder starten Sie neu und wählen Sie auf dem GRUB-Startbildschirm memtest aus. Dadurch erhalten Sie möglicherweise weitere Informationen.
Kamger
Keine MCE-Nachricht mehr heute Morgen (habe keinen physischen Zugriff auf den Server) und warte darauf, dass edac überprüft wird, gute Idee!
Matg
1

Es kann hilfreich sein, mcelog zu installieren und als Daemon auszuführen. Es kann dabei helfen, bessere Berichte bereitzustellen. Sie sind immer noch kryptisch, aber es gibt etwas mehr Informationen, um das Culrpit-DIMM zu finden.

mcelog kann auch Echtzeitprobleme lösen, indem Seiten mit übermäßigen Speicherfehlern deaktiviert werden und Sie so mehr Chancen haben, den Computer länger laufen zu lassen, bis Sie ihn wiederherstellen können.

Baruch Even
quelle
Danke, es ist das, was ich getan habe, aber keine Fehler mehr seit dem ersten Beitrag. Wir haben uns entschlossen, das gesamte DIMM zu ersetzen.
Matg
Manchmal sind die Fehler flüchtige Transienten und manchmal sind sie einfach an ganz bestimmte Stellen gebunden, die selten berührt werden. Wenn sich die Fehler nicht wiederholt hätten, hätte ich persönlich die Dimms nicht ersetzt und nur weiter überwacht, aber das Ersetzen ist auch gültig.
Baruch sogar
1

Einige Anbieter sagen, dass mehrere korrigierbare Fehler während eines bestimmten Zeitraums keinen Schaden anrichten.

Oracle sagt beispielsweise, dass ein DIMM ersetzt werden soll, wenn eines der folgenden Ereignisse eintritt:

  • Mehr als 24 korrigierbare Fehler (CEs) entstehen innerhalb von 24 Stunden von einem einzelnen DIMM, und kein anderes DIMM zeigt weitere CEs an.

  • Das DIMM schlägt den Speichertest im BIOS aufgrund von nicht korrigierbaren Speicherfehlern (UCEs) fehl.

  • UCEs treten auf und Untersuchungen zeigen, dass die Fehler aus dem Speicher stammen.

Beachten Sie 24 Fehler in 24 Stunden.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Ebenfalls,

Wenn bei mehr als einem DIMM mehrere CEs aufgetreten sind, müssen andere mögliche Ursachen für CEs von einem qualifizierten Sun Support-Spezialisten ausgeschlossen werden, bevor DIMMs ausgetauscht werden.

Zum letzten Punkt sagt HP etwas Ähnliches, dass möglicherweise nur die Server-Firmware Speicherfehler falsch erkennt. In vielen Fällen werden durch das Firmware-Upgrade falsch positive Warnungen behoben. Dies kann insbesondere dann der Fall sein, wenn Sie MCEs von verschiedenen DIMMs empfangen haben.

Tagar
quelle