In /var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Das ist edac
log, einer der Speicher hat ce
Fehler.
Ich habe edac doc gelesen
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
und finde den Fehlerkanal:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
und es sollte mc0/csrow0/ch2
, wie das Dokument, das DIMM sein DIMM_C0
und kann gefunden werden durch dmidecode
:
Da ich dieses DIMM nicht finden kann, weiß ich nicht, bei welchem Speicher ein Problem vorliegt:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Es gibt 12 Steckplätze und 9 Steckplätze haben Speicher.
Woher kann ich also wissen, bei welchem Speicher ein Problem vorliegt?
Ergänzung:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
Ubuntu 12.04
, Kernel ist3.10.20
Antworten:
Ihr Problem DIMM ist wahrscheinlich -
Locator: PROC 1 DIMM 5F
CPU # 0Channel # 2_DIMM # 0 bedeutet:
Bearbeiten:
Wenn Sie Fragen stellen, sind mehr Informationen immer besser ... Der Serverhersteller und das Servermodell hätten dies vereinfacht:
Hier ist das Speicherdiagramm der HP ProLiant DL180 G6 Quickspecs :
Mein Vorschlag, dass das DIMM im CPU-Steckplatz 1 korrekt ist ... Aber das ist HP Hardware. Sie sollten nicht raten müssen !!
Sie sollten die Verwaltungsagenten von HP verwenden, da sie plattformspezifische Details zum Hardwarestatus und -status anzeigen können.
quelle
PROC1 DIMM 5F
hab kein gedächtnis.So meinst du das der slot nicht wirklich bestätigt ist? Ich sollte einen HD-Deb-Spiegel hinzufügen und installierenhpamscli
, um das richtige DIMM zu erhalten.hp-health
, und dasStatus
ist dasN/A
gleiche wie Ihre Ausgabe eingefügt.hplog -v
den Befehl aus, um nach Einträgen im HP IML-Protokoll zu suchen.