Wenn ich folgendes mache
/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog > /tmp/tmp
/opt/MegaRAID/MegaCli/MegaCli -LDPDInfo -aAll -NoLog >> /tmp/tmp
dann sehe ich diese fehler
Media Error Count: 11
Other Error Count: 5
Frage
Was bedeuten sie? Sind sie kritisch?
Volle Ausgabe:
Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Adapter #0
Number of Virtual Disks: 1
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Number of Spans: 1
Span: 0 - Number of PDs: 5
PD: 0 Information
Enclosure Device ID: N/A
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0
Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9523610
PD: 1 Information
Enclosure Device ID: N/A
Slot Number: 1
Device Id: 1
Sequence Number: 2
Media Error Count: 11
Other Error Count: 5
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000001000000
Connected Port Number: 1
Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9507278
PD: 2 Information
Enclosure Device ID: N/A
Slot Number: 2
Device Id: 2
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000002000000
Connected Port Number: 2
Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9504713
PD: 3 Information
Enclosure Device ID: N/A
Slot Number: 3
Device Id: 3
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000003000000
Connected Port Number: 3
Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9503028
PD: 4 Information
Enclosure Device ID: N/A
Slot Number: 4
Device Id: 4
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000004000000
Connected Port Number: 4
Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9503793
quelle
tatsächlich smartctl können Sie detaillierte Informationen über jede Platte in Megaraid Razzia bieten. Informationen zum Ausführen der physischen Festplatte Nr. 0 erhalten:
Wie Pawel zu Recht darauf hinweist, handelt es sich höchstwahrscheinlich um neu zugewiesene Sektoren, aber ich hatte nur wenige Fälle, in denen Kommunikationsprobleme [sichtbar in smartctl -l xerror -d megaraid, 5 / dev / sda] als Media Error Count gemeldet wurden .
quelle
INVALID ARGUMENT TO -d: megaraid,0
. Das Ändern/dev/sda
aufata
gibt den gleichen Fehler aus.Solange Ihr Array betriebsbereit ist, sollte es in Ordnung sein. Der Medienfehlerzähler kann aufgrund von Ereignissen wie einer fehlerhaften Neuzuweisung des Sektors auf einem der Laufwerke ansteigen, während der andere Fehlerzähler durch jedes unproblematische Ereignis (Zurücksetzen des Busgeräts, Aus- und Wiedereinschalten usw.) erhöht werden kann. Wenn der Fehler jedoch kritisch ist, wird das Laufwerk vom Controller automatisch aus dem Array entfernt und als fehlerhaft gemeldet. In diesem Fall müssen Sie eine Aktion ausführen.
Es wäre großartig, wenn smartctl detaillierte SMART-Informationen zum Megaraid- und Status einzelner Einheiten bereitstellen könnte, aber ich denke nicht, dass dies unterstützt wird. Probieren Sie es für alle Fälle aus.
quelle
Manchmal erzeugen Laufwerke Lesefehler, und meiner Erfahrung nach kann ich in diesem Fall normalerweise "Badblocks" ausführen, um das Laufwerk einem Stresstest zu unterziehen, und das Laufwerk meldet möglicherweise frühzeitig einige Fehler, aber sobald das Laufwerk etwas beansprucht wurde Entweder werden weiterhin Fehler gemeldet. In diesem Fall ist dies nicht der Fall, oder es werden keine Fehler gemeldet.
Ich habe herausgefunden, dass dies darauf zurückzuführen ist, dass einige Sektoren des Laufwerks marginal sind, und dass Badblock-Remapping nur dann aktiviert werden kann, wenn Sie auf die Disc schreiben und nicht von ihr lesen. Wenn Sie Daten in einen Sektor schreiben, der fehlerhaft ist, muss das Laufwerk einen Fehler beim Lesen melden. Wenn dieser Sektor nur stillschweigend einem der Ersatzsektoren zugeordnet wird, erhalten Sie ungültige Daten zurück und keinen Fehler. Wenn beim Schreiben jedoch festgestellt wird, dass der Sektor schlecht ist, kann er diese Daten in einen Ersatzsektor schreiben und neu zuordnen.
Leider können Sie diese Fehleranzahl nicht löschen. Wenn Sie also eine Überwachung haben, die Medienfehler meldet, müssen Sie entweder das Laufwerk austauschen oder es erstellen, damit Sie die Überwachung anweisen können, diesen oder jene Fehler zu ignorieren und nur zu melden, wenn sie sich ändern nochmal.
Sie können den SMART-Status des Laufwerks mit smartctl überprüfen (danke, @pQd, das wusste ich nicht) mit:
Es ist wahrscheinlich nicht völlig unvernünftig, das Laufwerk neu zu erstellen und festzustellen, ob es weiterhin Probleme gibt. Mit MegaRAID können Sie dies mit den folgenden Befehlen tun:
Früher fielen Laufwerke ständig aus dem RAID-Array heraus (vielleicht ein oder zwei Mal im Monat, bei einer Stichprobe von 100 bis 200 Laufwerken). Aber die Laufwerke wurden nicht so schlecht angezeigt, nachdem ich sie ausgetauscht hatte.
Ich fing an, alle Laufwerke zu brennen, bevor ich sie für etwa eine Woche mit "Badblocks" in Produktion nahm, und nachdem ich damit begonnen hatte, verringerte sich die Anzahl dieser Array-Aussetzer dramatisch. Jetzt passiert es vielleicht zweimal im Jahr auf 500 Laufwerken.
Dies ist ein zerstörerischer Test. Stellen Sie daher sicher, dass Sie keine Daten auf dem Laufwerk haben:
Wäre "sdX" das zu testende Gerät. Seien Sie hier sehr vorsichtig. Wenn Sie das falsche Laufwerk auswählen, werden Ihre Daten zerstört . Ich führe meine Tests auf einem eigenständigen Computer auf meiner Testbench aus.
quelle