Wie kann ich herausfinden, welcher Speicher einen CE-Fehler aufweist?

12

In /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Das ist edaclog, einer der Speicher hat ceFehler.

Ich habe edac doc gelesen

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

und finde den Fehlerkanal:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

und es sollte mc0/csrow0/ch2, wie das Dokument, das DIMM sein DIMM_C0und kann gefunden werden durch dmidecode:

Da ich dieses DIMM nicht finden kann, weiß ich nicht, bei welchem ​​Speicher ein Problem vorliegt:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Es gibt 12 Steckplätze und 9 Steckplätze haben Speicher.

Woher kann ich also wissen, bei welchem ​​Speicher ein Problem vorliegt?


Ergänzung:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6
Tanky Woo
quelle
Was für ein Servertyp ist das? Serverhersteller und -modell.
ewwhite
@ewwhite, hi, ich habe die Frage mit Systeminformationen aktualisiert.
Tanky Woo
Welches Betriebssystem verwenden Sie?
ewwhite
@ Newwhite OS ist Ubuntu 12.04, Kernel ist3.10.20
Tanky Woo
Oh, tut mir leid ... Ubuntu wird auf dieser Hardware nicht wirklich unterstützt , so dass Sie die Fähigkeit verlieren, es richtig zu überwachen, wenn Sie RHEL / CentOS / Debian / SuSE nicht verwenden ...
ewwhite

Antworten:

8

Ihr Problem DIMM ist wahrscheinlich - Locator: PROC 1 DIMM 5F

CPU # 0Channel # 2_DIMM # ​​0 bedeutet:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Bearbeiten:

Wenn Sie Fragen stellen, sind mehr Informationen immer besser ... Der Serverhersteller und das Servermodell hätten dies vereinfacht:

Hier ist das Speicherdiagramm der HP ProLiant DL180 G6 Quickspecs :

Bildbeschreibung hier eingeben

Mein Vorschlag, dass das DIMM im CPU-Steckplatz 1 korrekt ist ... Aber das ist HP Hardware. Sie sollten nicht raten müssen !!

Sie sollten die Verwaltungsagenten von HP verwenden, da sie plattformspezifische Details zum Hardwarestatus und -status anzeigen können.

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A
ewwhite
quelle
danke, gibt es ein wiederkehrendes Dokument?
Tanky Woo
@TankyWoo Ja, siehe oben.
ewwhite
PROC1 DIMM 5Fhab kein gedächtnis.So meinst du das der slot nicht wirklich bestätigt ist? Ich sollte einen HD-Deb-Spiegel hinzufügen und installieren hpamscli, um das richtige DIMM zu erhalten.
Tanky Woo
Ich habe installiert hp-health, und das Statusist das N/Agleiche wie Ihre Ausgabe eingefügt.
Tanky Woo
Führen Sie hplog -vden Befehl aus, um nach Einträgen im HP IML-Protokoll zu suchen.
ewwhite