Ich versuche, die MCE-Nachricht zu verstehen, um herauszufinden, welches Speichermodul auf einem Server fehlerhaft ist. Diese Nachricht wird auf /var/log/kern.log
einem Server angezeigt , der heute zweimal einfriert.
Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error
Ich vermute ein schlechtes Speichermodul. Der Server ist ein 2x Xeon E5-2650 mit 8x8Go-Speichermodulen (8 Speichersteckplätze für jede CPU)
Hier ist die Speichermodulpopulation aus lshw
:
*-memory:0
description: System Memory
physical id: 2d
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B83AE5C2
slot: P1_DIMMA1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P1_DIMMA2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EC309238
slot: P1_DIMMB1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P1_DIMMB2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E9305438
slot: P1_DIMMC1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P1_DIMMC2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305738
slot: P1_DIMMD1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P1_DIMMD2
width: 64 bits
*-memory:1
description: System Memory
physical id: 3f
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B63A08C3
slot: P2_DIMME1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P2_DIMME2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EA309638
slot: P2_DIMMF1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P2_DIMMF2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E7305938
slot: P2_DIMMG1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P2_DIMMG2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305B38
slot: P2_DIMMH1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P2_DIMMH2
width: 64 bits
*-memory:2 UNCLAIMED
physical id: 7
*-memory:3 UNCLAIMED
physical id: 9
Wie Sie feststellen können, befindet sich auf der Bank Nr. 5 kein Speichermodul. Meine Frage lautet also: Stimmen Sie zu, dass es sich bei dieser Nachricht um einen Speicherfehler handelt? Und wenn ja, wie finde ich das zu ersetzende Modul?
Es kann hilfreich sein, mcelog zu installieren und als Daemon auszuführen. Es kann dabei helfen, bessere Berichte bereitzustellen. Sie sind immer noch kryptisch, aber es gibt etwas mehr Informationen, um das Culrpit-DIMM zu finden.
mcelog kann auch Echtzeitprobleme lösen, indem Seiten mit übermäßigen Speicherfehlern deaktiviert werden und Sie so mehr Chancen haben, den Computer länger laufen zu lassen, bis Sie ihn wiederherstellen können.
quelle
Einige Anbieter sagen, dass mehrere korrigierbare Fehler während eines bestimmten Zeitraums keinen Schaden anrichten.
Oracle sagt beispielsweise, dass ein DIMM ersetzt werden soll, wenn eines der folgenden Ereignisse eintritt:
Mehr als 24 korrigierbare Fehler (CEs) entstehen innerhalb von 24 Stunden von einem einzelnen DIMM, und kein anderes DIMM zeigt weitere CEs an.
Das DIMM schlägt den Speichertest im BIOS aufgrund von nicht korrigierbaren Speicherfehlern (UCEs) fehl.
UCEs treten auf und Untersuchungen zeigen, dass die Fehler aus dem Speicher stammen.
Beachten Sie 24 Fehler in 24 Stunden.
https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html
Ebenfalls,
Zum letzten Punkt sagt HP etwas Ähnliches, dass möglicherweise nur die Server-Firmware Speicherfehler falsch erkennt. In vielen Fällen werden durch das Firmware-Upgrade falsch positive Warnungen behoben. Dies kann insbesondere dann der Fall sein, wenn Sie MCEs von verschiedenen DIMMs empfangen haben.
quelle