Ich habe ein trauriges RAID-Array auf einer 3ware 9650SE-16ML-Karte. Was ich nicht sagen kann ist, ob ich gerade einen Doppelplattenfehler erlitten habe (Mist!) Oder ob ich das falsch lese. Die relavente Ausgabe von /c0 show all
ist:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Und der Fehler ist (von show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Ich denke, dass das, was passiert ist, p0 fehlgeschlagen ist und dann p1 einen ECC-Fehler hatte (auch bekannt als, meine Daten sind weg). Aber ... vielleicht auch nicht? Es bleibt bei 97% wiederhergestellt, kann aber diesen Fehler nicht überwinden.
Soweit ich das beurteilen kann, hat ein früherer Administrator die regelmäßige Überprüfung deaktiviert, was uns in diesen Zustand gebracht hat. Dies ist nichts, worüber sich die meisten Menschen mit ihren 3Ware-RAIDs Sorgen machen sollten!
Aktualisieren
Nachdem ich ein paar Tage darauf geschlagen hatte, habe ich das IgnoreECC-Bit ausgeführt und es neu erstellt, aber meine Daten sind abgespritzt. Schade.
Antworten:
ECC-Fehler bedeutet, dass sich mindestens ein unlesbarer Sektor auf dem Laufwerk befindet. Wenn Sie jedoch Glück haben, wird dieser Sektor möglicherweise nicht von dem auf diesem Volume befindlichen Dateisystem verwendet. Daher können Sie Ihre Daten möglicherweise in diesem Zustand weiterhin aus dem Array kopieren.
Es gibt auch einige Optionen, um ECC-Fehler während der Neuerstellung zu ignorieren:
Die Verwendung dieser Optionen bedeutet jedoch, dass der von einem fehlerhaften Sektor betroffene RAID-Streifen beschädigt wird (nicht sicher, was genau die Karte in diesem Fall tun wird - möglicherweise wird der gesamte Streifen durch Nullen oder sogar durch zufällige Daten ersetzt). Das wiederhergestellte Array weist möglicherweise tatsächlich eine nicht erkennbare Beschädigung auf (wenn sich der betroffene Streifen in der Mitte einer Datendatei befand). Das Kopieren Ihrer Daten aus dem Array an einen anderen Ort vor dem Versuch, sie neu zu erstellen, ist möglicherweise sicherer (zumindest sollten Fehler auftreten, wenn Sie versuchen, den fehlerhaften Bereich zu lesen).
Sie sollten die geplante Überprüfung des Arrays so einrichten, dass nicht lesbare Sektoren früher abgefangen werden, damit Sie ein Laufwerk ersetzen können, das gerade nicht mehr funktioniert.
quelle
Ich habe noch nie ein physisches Laufwerk (p0) erlebt, das in den Status DEGRADED versetzt wurde. Möglicherweise können Sie jedoch das ECC-ERROR-Laufwerk oder sogar das DEGRADED-Laufwerk wiederherstellen, indem Sie es über entfernen
und dann einen Rescan ausgeben
Setze sie zurück in die Schlachtzugseinheit über
SATA-Laufwerke, bei denen ich mit ECC-ERROR versagt habe, konnte ich wiederbeleben, wenn auch nur für ein paar Stunden, bevor ich erneut versagte.
quelle
Es ist sehr wahrscheinlich, dass Ihre Daten weg sind. ECC-Fehler bedeutet einen nicht behebbaren Fehler beim Lesen von dieser Festplatte.
Wenn Sie keine Sicherung haben, können Sie versuchen, den aktuellen Status des Arrays zu sichern. Dies ist möglicherweise möglich, weil der Controller nicht weiß, ob Daten verloren gegangen sind oder nur ein leerer Bereich (ihm fehlt ein Einblick in das Dateisystem).
quelle