Ist dies ein kritischer RAID-Fehler?

8

Wenn ich folgendes mache

/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog  > /tmp/tmp
/opt/MegaRAID/MegaCli/MegaCli -LDPDInfo     -aAll -NoLog >> /tmp/tmp

dann sehe ich diese fehler

Media Error Count: 11
Other Error Count: 5

Frage

Was bedeuten sie? Sind sie kritisch?

Volle Ausgabe:

Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default


Adapter #0

Number of Virtual Disks: 1
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Number of Spans: 1
Span: 0 - Number of PDs: 5
PD: 0 Information
Enclosure Device ID: N/A
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9523610

PD: 1 Information
Enclosure Device ID: N/A
Slot Number: 1
Device Id: 1
Sequence Number: 2
Media Error Count: 11
Other Error Count: 5
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000001000000
Connected Port Number: 1 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9507278

PD: 2 Information
Enclosure Device ID: N/A
Slot Number: 2
Device Id: 2
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000002000000
Connected Port Number: 2 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9504713

PD: 3 Information
Enclosure Device ID: N/A
Slot Number: 3
Device Id: 3
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000003000000
Connected Port Number: 3 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503028

PD: 4 Information
Enclosure Device ID: N/A
Slot Number: 4
Device Id: 4
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000004000000
Connected Port Number: 4 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503793
Sandra
quelle

Antworten:

10

Sie haben Probleme mit dem Laufwerk in Steckplatz 1. Es ist RAID 5, daher sind Ihre Daten geschützt, aber Sie haben die Redundanz verloren (eine Festplatte ist nicht zuverlässig). Ein Medienfehler bedeutet, dass dem Laufwerk die Ersatzsektoren ausgehen, um fehlerhafte Sektoren neu zuzuordnen ( http://kb.lsi.com/KnowledgebaseArticle15809.aspx http://mycusthelp.info/LSI/_cs/AnswerDetail.aspx?inc=7468 ). Wenn es meine Daten wären, wäre ich beim Sichern doppelt gewissenhaft, entferne das Laufwerk, ersetze es durch ein neues und synchronisiere das Array. Einige Anbieter (z. B. IBM) akzeptieren RMA basierend auf prädiktiven Fehlerindikatoren, andere nicht. Wenn Ihr Anbieter eine Festplatte mit fehlerhaften, nicht neu zuweisbaren Sektoren nicht als fehlerhaft akzeptiert, nehmen Sie sie aus dem Array und trainieren Sie sie in einem Testsystem. Es sollte in angemessener Zeit fehlschlagen.

Bearbeiten:

Medienereignisse waren nur für Datenträger mit Steckplatz-ID 1 ungleich Null. In dem von Ihnen angegebenen Protokoll ist für jeden Eintrag eine Steckplatz-ID angegeben. Das Seltsame ist, dass der RAID seinen Status trotz Medienfehlern auf der Festplatte als optimal meldet. Trotzdem würde ich der Festplatte nicht vertrauen.

RAID 5, das mit n Festplatten derselben Größe erstellt wurde, bietet eine Kapazität von (n-1) Festplatten, da Redundanzdaten einer Festplatte gespeichert werden. Wenn Sie also über sechs 250-GB-Festplatten und 1T nutzbaren Speicherplatz verfügen, werden diese höchstwahrscheinlich in RAID 5 mit 5 Festplatten (was Ihnen 4x250 GB nutzbaren Speicherplatz bietet) plus 1 Ersatzfestplatte unterteilt.

Paweł Brodacki
quelle
Wie konnten Sie feststellen, dass die Festplatte in Steckplatz 1 defekt ist?
Sandra
Übrigens. Kann man an dieser Ausgabe erkennen, wie das RAID5 konfiguriert ist? Ich habe 6x250GB Festplatten und 1 TB verwendbar. Heißt das, ich habe 1 Hot Spare oder 2 Hot Spare?
Sandra
1
Die Kapazität eines RAID5 mit n Festplatten beträgt (2/3) * n. Für 2 Datenbits speichern Sie 1 Bit Parität. Das ist ein Drittel weg.
Antoine Benkemoun
@Antoine Benkemoun: Laut Wikipedia bekomme ich (n-1) und nicht (2/3) * n en.wikipedia.org/wiki/Raid5#RAID_5
Sandra
1
@ Sandra Ich fürchte, ich kann nicht sagen, ob das Ersatzlaufwerk verwendet wird. Ich sehe zwei Möglichkeiten: 1) Lesen des MegaCLI-Referenzhandbuchs und Überprüfen, ob Sie es überprüfen können, oder 2) Gehen Sie zur physischen Box und sehen Sie sich die Lichter an (wenn es sich um Hot-Swap-Festplatten handelt). Fehlerhafte Festplatten melden ihren Status normalerweise mit rot / orangefarbenen Lichtern an.
Paweł Brodacki
7

tatsächlich smartctl können Sie detaillierte Informationen über jede Platte in Megaraid Razzia bieten. Informationen zum Ausführen der physischen Festplatte Nr. 0 erhalten:

smartctl -a -d megaraid,0 /dev/sda|less

Wie Pawel zu Recht darauf hinweist, handelt es sich höchstwahrscheinlich um neu zugewiesene Sektoren, aber ich hatte nur wenige Fälle, in denen Kommunikationsprobleme [sichtbar in smartctl -l xerror -d megaraid, 5 / dev / sda] als Media Error Count gemeldet wurden .

pQd
quelle
Wenn ich es versuche, bekomme ich INVALID ARGUMENT TO -d: megaraid,0. Das Ändern /dev/sdaauf atagibt den gleichen Fehler aus.
Sandra
@ Sandra - arbeitet hier mit Dell Perc6 [MegaRAID SAS 1078] und Smartctl 5.40
pQd
@ Sandra, älteres Smartctl, z. Version 5.38 unter Ubuntu 10.04 bietet keine Megaraid-Unterstützung. (5.41 auf Ubuntu 12.04 hat es)
Peter
2

Solange Ihr Array betriebsbereit ist, sollte es in Ordnung sein. Der Medienfehlerzähler kann aufgrund von Ereignissen wie einer fehlerhaften Neuzuweisung des Sektors auf einem der Laufwerke ansteigen, während der andere Fehlerzähler durch jedes unproblematische Ereignis (Zurücksetzen des Busgeräts, Aus- und Wiedereinschalten usw.) erhöht werden kann. Wenn der Fehler jedoch kritisch ist, wird das Laufwerk vom Controller automatisch aus dem Array entfernt und als fehlerhaft gemeldet. In diesem Fall müssen Sie eine Aktion ausführen.

Es wäre großartig, wenn smartctl detaillierte SMART-Informationen zum Megaraid- und Status einzelner Einheiten bereitstellen könnte, aber ich denke nicht, dass dies unterstützt wird. Probieren Sie es für alle Fälle aus.

OG
quelle
0

Manchmal erzeugen Laufwerke Lesefehler, und meiner Erfahrung nach kann ich in diesem Fall normalerweise "Badblocks" ausführen, um das Laufwerk einem Stresstest zu unterziehen, und das Laufwerk meldet möglicherweise frühzeitig einige Fehler, aber sobald das Laufwerk etwas beansprucht wurde Entweder werden weiterhin Fehler gemeldet. In diesem Fall ist dies nicht der Fall, oder es werden keine Fehler gemeldet.

Ich habe herausgefunden, dass dies darauf zurückzuführen ist, dass einige Sektoren des Laufwerks marginal sind, und dass Badblock-Remapping nur dann aktiviert werden kann, wenn Sie auf die Disc schreiben und nicht von ihr lesen. Wenn Sie Daten in einen Sektor schreiben, der fehlerhaft ist, muss das Laufwerk einen Fehler beim Lesen melden. Wenn dieser Sektor nur stillschweigend einem der Ersatzsektoren zugeordnet wird, erhalten Sie ungültige Daten zurück und keinen Fehler. Wenn beim Schreiben jedoch festgestellt wird, dass der Sektor schlecht ist, kann er diese Daten in einen Ersatzsektor schreiben und neu zuordnen.

Leider können Sie diese Fehleranzahl nicht löschen. Wenn Sie also eine Überwachung haben, die Medienfehler meldet, müssen Sie entweder das Laufwerk austauschen oder es erstellen, damit Sie die Überwachung anweisen können, diesen oder jene Fehler zu ignorieren und nur zu melden, wenn sie sich ändern nochmal.

Sie können den SMART-Status des Laufwerks mit smartctl überprüfen (danke, @pQd, das wusste ich nicht) mit:

MegaCli64 -PDList  -aALL | grep -e '^$' -e Slot -e Count
#  Find the slot number to use for "X".
#  For "Y" use the device name the system knows, such as "sda".
smartctl -a -d megaraid,X /dev/sdY

Es ist wahrscheinlich nicht völlig unvernünftig, das Laufwerk neu zu erstellen und festzustellen, ob es weiterhin Probleme gibt. Mit MegaRAID können Sie dies mit den folgenden Befehlen tun:

#  WARNING: Make sure the array is "Optimal" first, this will degrade it.
MegaCli64 -LDInfo -Lall -aALL | grep State
#  NOTE: This assumes drive 3 of enclosure 32 for adapter 0
MegaCli64 -PDOffline -PhysDrv [32:3] -a0
MegaCli64 -PDRbld -Start -PhysDrv [32:3] -a0

#  Now check the rebuild status until it completes:
MegaCli64 -PDRbld -ShowProg -PhysDrv [32:3] -a0

# And the array status should go back to Optimal
MegaCli64 -LDInfo -Lall -aALL | grep State

Früher fielen Laufwerke ständig aus dem RAID-Array heraus (vielleicht ein oder zwei Mal im Monat, bei einer Stichprobe von 100 bis 200 Laufwerken). Aber die Laufwerke wurden nicht so schlecht angezeigt, nachdem ich sie ausgetauscht hatte.

Ich fing an, alle Laufwerke zu brennen, bevor ich sie für etwa eine Woche mit "Badblocks" in Produktion nahm, und nachdem ich damit begonnen hatte, verringerte sich die Anzahl dieser Array-Aussetzer dramatisch. Jetzt passiert es vielleicht zweimal im Jahr auf 500 Laufwerken.

Dies ist ein zerstörerischer Test. Stellen Sie daher sicher, dass Sie keine Daten auf dem Laufwerk haben:

badblocks -svw -p 5 /dev/sdX

Wäre "sdX" das zu testende Gerät. Seien Sie hier sehr vorsichtig. Wenn Sie das falsche Laufwerk auswählen, werden Ihre Daten zerstört . Ich führe meine Tests auf einem eigenständigen Computer auf meiner Testbench aus.

Sean Reifschneider
quelle