Der zpool-Status meldet einen Fehler. Wie geht es weiter?

8

Auf zpool statusmeinem FreeNAS-Server gibt mir:

  pool: raid2
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://www.sun.com/msg/ZFS-8000-9P
 scrub: none requested
config:

    NAME                                            STATE     READ WRITE CKSUM
    raid2                                           ONLINE       0     0     0
      raidz1                                        ONLINE       0     0     0
        gptid/5f3c0517-3ff2-11e2-9437-f46d049aaeca  ONLINE       0     0     0
        gptid/5fe33556-3ff2-11e2-9437-f46d049aaeca  ONLINE       3 1.13M     0
        gptid/60570005-3ff2-11e2-9437-f46d049aaeca  ONLINE       0     0     0
        gptid/60ebeaa5-3ff2-11e2-9437-f46d049aaeca  ONLINE       0     0     0
        gptid/61925b86-3ff2-11e2-9437-f46d049aaeca  ONLINE       0     0     0

errors: No known data errors

Was sollte ich tun? scrubder Pool?

Dan
quelle

Antworten:

6

Geben Sie ein zpool clear raid2, um die Fehler zu löschen und ein Scrub zu starten.

Wenn die Fehler danach weiterhin bestehen, ersetzen Sie die Festplatte.

Weitere Details zur Hardware würden helfen, daher ist dies ein allgemeiner Rat. Meine Empfehlung für eine Reihe von Consumer-Festplatten, die an ein PC-Motherboard angeschlossen sind, unterscheidet sich von der Empfehlung für Geräte auf Unternehmensebene.

ewwhite
quelle
uh oh ... nach zpool clear raid2, zpool statusgab DEGRADEDund dass Platte ist UNAVAIL. Es macht keinen Sinn, jetzt zu schrubben, oder? Müssen Sie die Festplatte ersetzen? Aber ... ich bin mir nicht sicher, wie ich es identifizieren soll. Gibt es eine Möglichkeit, die Seriennummer zu erhalten gptid/5fe33556-3ff2-11e2-9437-f46d049aaeca?
Dan
zdb raid2 gibt die GUID für die Festplatte an. Aber ich denke nicht, dass dies die Seriennummer herausgeben wird.
Andreas Mattisson
3

Das Tool sagt Ihnen, was Sie tun müssen: " Bestimmen Sie, ob das Gerät ersetzt werden muss ".

Die Tools sind nur so intelligent und erfordern, dass Sie als menschlicher Administrator einige Dinge herausfinden. Die erforderlichen Schritte sind spezifisch für Ihre Hardware und Ihre Einrichtung. Sie müssen daher einige Entscheidungen treffen, die auf Ihren Systemkenntnissen basieren.

Schauen Sie sich die Ausgabe des Befehls an. Es sieht so aus, als ob auf dem Gerät gptid/5fe33556-3ff2-11e2-9437-f46d049aaecaSchreibfehler auftreten. '1.13M' ist eine sehr hohe Fehlerrate, und ich vermute, dass das Problem seit einiger Zeit auftritt, ohne dass Sie es bemerken. Überprüfen Sie, warum Sie herausfinden können, warum und ersetzen Sie dann die Festplatte.

Wenn Sie über einen Hardware-Controller verfügen, verfügt dieser Controller möglicherweise über zusätzliche Tools, mit denen Sie die Art des Fehlers ermitteln können.

ZFS kann mit beschädigten Sektoren umgehen, sodass kein Grund zur Panik besteht. Aber ignorieren Sie das Problem auch nicht.

Als vorbeugende Maßnahme sollten Sie auch regelmäßig ein ZFS-Scrub ausführen. Siehe http://doc.freenas.org/index.php/ZFS_Scrubs . Dies wird Sie benachrichtigen, wenn ZFS zum ersten Mal auf ein Problem stößt, lange bevor Sie die Marke von 1,13 Mio. erreichen.

Stefan Lasiewski
quelle
2
+1. ZFS ist schwer.
ewwhite
3

Verwenden Sie den folgenden Befehl change out / dev / adaX für Ihre Laufwerke.

[blackout @ freenas ~] # smartctl -a / dev / ada0 | grep "Serial"
Seriennummer: WD-WCC4EXXXXXXXX
auch ein hilfreicher Befehl [blackout @ freenas ~] # glabel status

Mark Stampfle
quelle
2

Obwohl die Frage alt ist, könnte sie von anderen Menschen betrachtet werden.

Wenn ja, denken Sie daran, die Ausgabe von zpool statusund zpool status -vbeziehen sich auf alle aufgetretenen Fehler. Dazu gehören Fehler aufgrund der SATA-Anschlüsse Ihres Motherboards (falls verwendet), der HBA-Karte (falls verwendet), der SATA-Kabel selbst ..... nicht nur der Festplatten.

Drei schnelle Diagnosetests sind: Überprüfen Sie die Festplatte schnell mit smartctl, überprüfen Sie, ob die Karte richtig sitzt und nicht locker ist, und versuchen Sie es mit einem anderen Anschluss oder SATA-Kabel (das Kabel ist eine häufige Ursache für Lese- / Schreibfehler).

Stilez
quelle