Wie viele Neuzuordnungen im SMART-Sektor weisen auf Probleme hin?

17

Ich habe eine NAS-Appliance, die etwas mehr als einen Monat alt ist. Es ist so konfiguriert, dass ich Benachrichtigungen per E-Mail erhalte, die aus den SMART-Daten der Festplatten generiert wurden. Nach einem Tag meldete eine der Festplatten, dass ein Sektor kaputt gegangen und neu zugeordnet worden war. In der ersten Woche stieg diese Zahl auf sechs Sektoren für die betreffende Festplatte. Nach einem Monat liegt die Zahl bei neun neu zugewiesenen Sektoren. Die Rate scheint sich definitiv zu verlangsamen.

Der NAS ist mit sechs 1,5-TB-Laufwerken in einer RAID-5-Konfiguration konfiguriert. Bei Laufwerken mit so hoher Kapazität würde ich erwarten, dass ein Sektor von Zeit zu Zeit ausfällt, daher war ich nicht besorgt, als die ersten Sektoren verlagert wurden. Es stört mich jedoch, dass keine der anderen Festplatten Probleme meldet.

Bei wie vielen Umzügen oder bei wie vielen Umzügen sollte ich mir Sorgen um den Zustand des Laufwerks machen? Kann dies aufgrund der Kapazität des Laufwerks variieren?

Jeremy
quelle
Schön, Jeremy. Es ist eines der besten Serverfehlers, auf das viele andere hier eine Antwort finden. verdient definitiv mehr als +2. Vielleicht möchten Sie die Frage umformulieren, damit sie nicht für NetGear spezifisch ist, sondern für den allgemeinen Speicher
Benutzername
Vielen Dank für das Feedback, ich habe die von Ihnen vorgeschlagenen Änderungen vorgenommen und die Situation aktualisiert.
Jeremy
1
Ich ersetze Laufwerke in einem neu zugewiesenen Sektor. Sie sollten während der Garantiezeit des Laufwerks mit Null rechnen. Die Hersteller haben die Garantie für diese Laufwerke immer eingehalten.
Michael Hampton

Antworten:

13

Antriebe weisen wie die meisten Komponenten eine Ausfallrate der Badewannenkurve auf. Sie scheitern am Anfang häufig, haben in der Mitte eine relativ niedrige Ausfallrate und scheitern am Ende ihres Lebens häufig.

So wie das gesamte Laufwerk dieser Kurve folgt, folgen auch bestimmte Bereiche der Festplatte dieser Kurve. Zu Beginn der Nutzung des Laufwerks werden viele Sektorumverteilungen auftreten, die sich jedoch verringern sollten. Wenn das Laufwerk am Ende seiner Lebensdauer ausfällt, gehen immer mehr Sektoren verloren.

Sie müssen sich nicht um 6 kümmern (je nach Laufwerk - wenden Sie sich an den Hersteller), sondern müssen die Häufigkeit jeder Neuzuweisung beobachten und anzeigen. Wenn sich die Verschlechterung beschleunigt oder gleich bleibt, sorgen Sie sich. Andernfalls sollte es nach der anfänglichen Einlaufzeit in Ordnung sein.

-Adam

Adam Davis
quelle
Ein kleiner Punkt: Die Antriebe fallen LONG vor ihrer MTBF aus. Ich denke, Sie meinen, dass sie viel versagen, wenn sie sich ihrer erwarteten Lebensdauer nähern.
Eddie
5
Hat Google die Theorie der "Badewannenkurve" nicht gründlich entlarvt?
Insyte
20

Wenn ich Googles Artikel zum Thema " Fehlertrends bei einer großen Anzahl von Festplatten " erneut lese , kann ich mit Sicherheit sagen, dass Adams Antwort falsch ist. Bei der Analyse einer extrem massiven Laufwerkspopulation hatten ungefähr 9% eine Nicht-Null-Neuzuweisungsanzahl. Das aussagekräftige Zitat lautet:

Nach der ersten Neuzuweisung ist die Wahrscheinlichkeit, dass Laufwerke innerhalb von 60 Tagen ausfallen, mehr als 14-mal höher als bei Laufwerken ohne Neuzuweisung, sodass der kritische Schwellenwert für diesen Parameter ebenfalls einer ist.

Noch interessanter ist es, wenn es sich um "Offline-Neuzuordnungen" handelt, bei denen es sich um Neuzuordnungen handelt, die während der Hintergrundbereinigung des Laufwerks und nicht während der tatsächlich angeforderten E / A-Vorgänge festgestellt wurden. Ihr Fazit:

Nach der ersten Offline-Neuzuweisung sind die Ausfallwahrscheinlichkeiten von Laufwerken innerhalb von 60 Tagen 21-mal höher als bei Laufwerken ohne Offline-Neuzuweisung. Ein Effekt, der wiederum drastischer ist als die totale Neuzuweisung.

Meine Politik wird von nun an sein, dass Laufwerke mit einer Neuzuordnungsanzahl ungleich Null für den Austausch eingeplant werden sollen.

Insyte
quelle
Das ist interessant, ich hatte von diesem Artikel gehört, muss ihn aber möglicherweise noch einmal lesen. FWIW, 4 der 6 Laufwerke in meinem NAS haben Sektoren neu zugeordnet. Danke für die Antwort.
Jeremy
3

Unterschiedliche Antriebe haben wahrscheinlich unterschiedliche Parameter. Auf einem Laufwerk, auf dem ich zuletzt überprüft habe, dass es sich um eine 1-TB-Festplatte der Enterprise-Serie eines Herstellers handelt, wurden 2048 Sektoren für die Neuzuweisung reserviert.

Sie können die Anzahl der reservierten Sektoren schätzen, die im SMART-Bericht auf einem Laufwerk angezeigt werden, dessen Anzahl der neu zugewiesenen Sektoren ungleich Null ist. Betrachten Sie unten einen Bericht über ein ausgefallenes Laufwerk.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Hier wurden 95% der reservierten Kapazität genutzt, dh 1955 Sektoren. Die anfängliche Kapazität war daher ungefähr 2057. Tatsächlich ist es 2048, die Differenz ist auf den Rundungsfehler zurückzuführen.

Der SMART versetzt das Laufwerk in einen fehlerhaften Zustand, wenn die Anzahl der neu zugewiesenen Sektoren einen bestimmten Schwellenwert erreicht. Für das betreffende Laufwerk wird dieser Schwellenwert auf 64% der reservierten Kapazität festgelegt. Das sind ungefähr 1310 neu zugeordnete Sektoren.

Die reservierten Sektoren liegen jedoch nicht in einer kontinuierlichen Spanne. Stattdessen werden sie in mehrere Gruppen aufgeteilt. Jede Gruppe wird zum erneuten Zuordnen von Sektoren von einem bestimmten Teil der Festplatte verwendet. Dies geschieht, um die Daten in einem Bereich auf der Festplatte lokal zu halten.

Der Nachteil der Lokalität ist, dass die Festplatte möglicherweise viele reservierte Sektoren hat. Möglicherweise sind in einem Bereich bereits keine Kapazitäten mehr verfügbar. In diesem Fall hängt das Verhalten von der Firmware ab. Auf einem Laufwerk haben wir beobachtet, dass es in einen FEHLERHAFTEN Zustand übergeht und blockiert, wenn ein Fehler in einem Teil auftritt, das nicht mehr geschützt ist.

Dmitri Chubarov
quelle
Wie haben Sie festgestellt, dass "es 2048 reservierte Sektoren für die Neuzuweisung gab"?
AJ.
Möglicherweise ist 2047 die maximale Anzahl neu zuweisbarer Sektoren. Eines meiner Laufwerke hatte genau 2047, als es bei eBay für "new" gekauft wurde, also 0x7FF, also b11,111,111,111. Bis 2048 zu gehen, würde ein zusätzliches bisschen verschwenden.
Davide
2

Möglicherweise möchten Sie einen langen SMART-Selbsttest ausführen, wenn das Laufwerk dies unterstützt. Dadurch erhalten Sie möglicherweise weitere Informationen zum Status des Laufwerks. Wenn Ihr NAS dies nicht kann und Sie das Laufwerk herausziehen oder den NAS für einige Stunden herunterfahren können, können Sie den langen Selbsttest mit der in einen anderen Computer eingesteckten Festplatte durchführen.

Eddie
quelle
1

Wenn sich ein Laufwerk so neu verhält, ist es überhaupt nicht vertrauenswürdig!

Senden Sie es so schnell wie möglich zurück und besorgen Sie sich ein Ersatzlaufwerk.

Nils-Anders Nøttseter
quelle
1

Verschiedene Hersteller haben unterschiedliche "akzeptable Verluste" (gleiche Idee wie bei Monitoren und fehlerhaften Pixeln). Erkundigen Sie sich beim Hersteller des Laufwerks nach dessen Standard.

Es sieht allerdings nach einem schlechten Trend aus ...

Brian Knoblauch
quelle
-1

Western Digital ist besonders stolz auf die Technologie, mit der fehlerhafte Sektoren in akzeptabler Zeit wiederhergestellt werden können, anstatt die in RAID platzierte Festplatte TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ) einzufrieren . Die Zeit beträgt normalerweise 5..7 Sekunden.

Wie ich im Internet festgestellt habe, gibt es WD-Laufwerke mit deaktivierter Option, aber einige Leute haben diese Funktion auf billigen Green WD-Laufwerken aktiviert und platzieren sie dann in RAID.

Das WDTLER-Dienstprogramm wurde von der WD-Support-Website entfernt, kann jedoch problemlos über Google gefunden werden.

PS Ich benutze dieses Dienstprogramm nur zum Lesen des Status und ich verwende derzeit kein RAID :)


quelle