Was bedeutet tw_cli von 3Ware mit einer "DEGRADED" -Diskette gegenüber "ECC-ERROR"?

10

Ich habe ein trauriges RAID-Array auf einer 3ware 9650SE-16ML-Karte. Was ich nicht sagen kann ist, ob ich gerade einen Doppelplattenfehler erlitten habe (Mist!) Oder ob ich das falsch lese. Die relavente Ausgabe von /c0 show allist:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

Und der Fehler ist (von show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Ich denke, dass das, was passiert ist, p0 fehlgeschlagen ist und dann p1 einen ECC-Fehler hatte (auch bekannt als, meine Daten sind weg). Aber ... vielleicht auch nicht? Es bleibt bei 97% wiederhergestellt, kann aber diesen Fehler nicht überwinden.

Soweit ich das beurteilen kann, hat ein früherer Administrator die regelmäßige Überprüfung deaktiviert, was uns in diesen Zustand gebracht hat. Dies ist nichts, worüber sich die meisten Menschen mit ihren 3Ware-RAIDs Sorgen machen sollten!

Aktualisieren

Nachdem ich ein paar Tage darauf geschlagen hatte, habe ich das IgnoreECC-Bit ausgeführt und es neu erstellt, aber meine Daten sind abgespritzt. Schade.

Bill Weiss
quelle
Probieren Sie die Freezer Recovery- Methode aus, wenn wichtige Daten vorhanden sind.
Chris S
Ich bin nicht gegen den Gefriertrick, aber nicht für einen bestimmten Fehlermodus, nicht nur "mein Laufwerk ist gestorben"?
Bill Weiss
Die mit DEGRADED bezeichnete Festplatte ist die Zielfestplatte der REBUILD-Operation.
Wazoox

Antworten:

7

ECC-Fehler bedeutet, dass sich mindestens ein unlesbarer Sektor auf dem Laufwerk befindet. Wenn Sie jedoch Glück haben, wird dieser Sektor möglicherweise nicht von dem auf diesem Volume befindlichen Dateisystem verwendet. Daher können Sie Ihre Daten möglicherweise in diesem Zustand weiterhin aus dem Array kopieren.

Es gibt auch einige Optionen, um ECC-Fehler während der Neuerstellung zu ignorieren:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Die Verwendung dieser Optionen bedeutet jedoch, dass der von einem fehlerhaften Sektor betroffene RAID-Streifen beschädigt wird (nicht sicher, was genau die Karte in diesem Fall tun wird - möglicherweise wird der gesamte Streifen durch Nullen oder sogar durch zufällige Daten ersetzt). Das wiederhergestellte Array weist möglicherweise tatsächlich eine nicht erkennbare Beschädigung auf (wenn sich der betroffene Streifen in der Mitte einer Datendatei befand). Das Kopieren Ihrer Daten aus dem Array an einen anderen Ort vor dem Versuch, sie neu zu erstellen, ist möglicherweise sicherer (zumindest sollten Fehler auftreten, wenn Sie versuchen, den fehlerhaften Bereich zu lesen).

Sie sollten die geplante Überprüfung des Arrays so einrichten, dass nicht lesbare Sektoren früher abgefangen werden, damit Sie ein Laufwerk ersetzen können, das gerade nicht mehr funktioniert.

Sergey Vlasov
quelle
Ich mache jetzt das ignoreECC-Bit. Sieht für meine Daten nicht gut aus.
Bill Weiss
1
Und ja, wir sollten die Arrays von Zeit zu Zeit überprüfen lassen. Ich werde spekulieren, dass der Typ, der das eingerichtet hat, das aus Leistungsgründen ausgeschaltet hat :(
Bill Weiss
Nun, das hat es durch den Wiederaufbau geschafft, aber auf meine Daten bezogen. Schade. Das wird uns lehren, die Überprüfung auszuschalten ...
Bill Weiss
4

Ich habe noch nie ein physisches Laufwerk (p0) erlebt, das in den Status DEGRADED versetzt wurde. Möglicherweise können Sie jedoch das ECC-ERROR-Laufwerk oder sogar das DEGRADED-Laufwerk wiederherstellen, indem Sie es über entfernen

/c0 p1 remove

und dann einen Rescan ausgeben

/c0 rescan

Setze sie zurück in die Schlachtzugseinheit über

maint rebuild c0 u0 p1

SATA-Laufwerke, bei denen ich mit ECC-ERROR versagt habe, konnte ich wiederbeleben, wenn auch nur für ein paar Stunden, bevor ich erneut versagte.

ZaphodB
quelle
3
Das Entfernen des p1-Laufwerks im aktuellen Zustand würde das Array wahrscheinlich vollständig abspritzen.
Sergey Vlasov
Ich habe dies mit dem p0-Laufwerk gemacht (unter der Annahme, dass es das schlechte war) und es versucht, es neu zu erstellen, aber es hat das Laufwerk fast sofort als DEGRADED markiert. Schade.
Bill Weiss
1
AFAIR wird das Laufwerk während des Umbaus als DEGRADED markiert - siehe z . B. hier . Was wichtig ist, ist der Array-Status (REBUILDING oder etwas anderes?).
Sergey Vlasov
Hm. Es wird tatsächlich neu aufgebaut ... Alle vier Laufwerke blinken viel, das ist ein gutes Zeichen, oder?
Bill Weiss
Stiiiiiil Wiederaufbau ... es ist bei 37% nach 4 Stunden. Schade.
Bill Weiss
2

Es ist sehr wahrscheinlich, dass Ihre Daten weg sind. ECC-Fehler bedeutet einen nicht behebbaren Fehler beim Lesen von dieser Festplatte.

Wenn Sie keine Sicherung haben, können Sie versuchen, den aktuellen Status des Arrays zu sichern. Dies ist möglicherweise möglich, weil der Controller nicht weiß, ob Daten verloren gegangen sind oder nur ein leerer Bereich (ihm fehlt ein Einblick in das Dateisystem).

Sven
quelle