Zeigt dieser SMART-Selbsttest ein fehlerhaftes Laufwerk an?

10

Ich frage mich, ob die Ergebnisse dieses SMART-Selbsttests auf ein fehlerhaftes Laufwerk hinweisen. Dies ist das einzige Laufwerk, bei dem in den Ergebnissen "Abgeschlossen: Lesefehler" angezeigt wird.

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

Abgesehen von der Ausgabe dieses SMART-Selbsttests zeigt das Laufwerk noch keine Anzeichen eines Fehlers. Dies ist die Ausgabe von einem anderen Laufwerk im selben System, auf dem derzeit ein SMART-Selbsttest ausgeführt wird

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2
Jeff Welling
quelle
4
Es wäre viel hilfreicher, wenn Sie smartctl -a /dev/sdeden Abschnitt mit SMART Attributes Data Structureder Bezeichnung " Rohzähler" ausführen und veröffentlichen würden. Insbesondere ist die allererste Raw_Read_Error_Ratedie beste Anzeige für "schlechtes Laufwerk" (und wird in Ihrem Fall wahrscheinlich! 0 sein).
Chris S
1
Hinzugefügt. . . . . . . . . .
Jeff Welling
1
Die von Ihnen hinzugefügten Daten sehen gut genug aus. Wenn das Laufwerk Teil eines RAID-Arrays ist, würde ich mir darüber keine Sorgen machen. Sie sollten zunächst Ihre wichtigen Dateien sichern. Jetzt ist ein guter Zeitpunkt, um zu beginnen, wenn Sie dies nicht tun.
Chris S
4
@ Jeff Welling: Um kein Pedant zu sein, aber wenn sich Ihr "Backup" auf dem RAID-Array befindet, ist es kein "Backup", sondern eine "Kopie". Wenn ich es wäre, würde ich das Laufwerk bei Anzeichen eines Laufwerksausfalls ersetzen. Für die geringen Kosten, die heutzutage für eine gute Fahrt anfallen, lohnt sich die Versicherung. Außerdem habe ich gerade zwei Laufwerksfehler im selben (RAID10) Array am selben Tag festgestellt. Von 6, die im Array waren. FWIW.
Kendall
1
@ Kendall, ich denke er meint das Array wird für Backups verwendet und die Originale sind woanders. Wenn dies der Fall ist, würde ich es wahrscheinlich tun, da es eher unwahrscheinlich ist, dass zwei Laufwerke ausfallen (es sei denn, es handelt sich um neue Laufwerke, ist die Kindersterblichkeit ein häufiges Problem und das Einbrennen ist in großen Arrays üblich).
Chris S

Antworten:

8

Hoffentlich haben Sie das Laufwerk längst ausgetauscht, aber da hat noch niemand die Frage direkt beantwortet ...

Sie haben zwei Tests ausgeführt, bei denen beide nicht denselben logischen Sektor der Festplatte lesen konnten, wie durch Completed: read failureund denselben LBA in beiden Tests angegeben. Dies weist in der Tat darauf hin, dass die Festplatte einen Defekt aufweist, und Sie sollten sie im Rahmen der Garantie ersetzen lassen können. Der Versuch, Daten in diesem Sektor zu speichern, kann dazu führen, dass das Laufwerk während des Schreibvorgangs feststellt, dass es defekt ist, und den Sektor neu zuordnet. Wenn das Laufwerk dies jedoch nicht bemerkt und die Daten später nicht lesen kann, haben Sie verloren es.

Michael Hampton
quelle
4

Lohnt es sich, Ihre Daten auf einem verdächtigen Laufwerk zu riskieren?

Wenn ich es wäre, würde ich das Laufwerk ersetzen und dankbar sein, dass SMART mir große Kopfschmerzen erspart hat.

Speckwürfel
quelle
Außerdem würde ich zumindest ein Cron-Skript einrichten, das einmal pro Woche auf Ihren Laufwerken intelligent ausgeführt wird, und es dann jede Woche in einem Bericht oder einer E-Mail an Sie senden lassen, damit Sie sich in den meisten Fällen im Voraus identifizieren können Welche Laufwerke befinden sich möglicherweise auf den letzten Beinen, um zu vermeiden, dass Sie sich von einem Fehler erholen und von Sicherungen wiederherstellen müssen. Noch einfacher, wenn Sie mehrere Maschinen haben, ist die Verwendung eines Überwachungstools wie Nagios oder Munin.
Wilshire
5
Dies ist einfacher, wenn Sie wissen, welche intelligente Ausgabe auf ein fehlerhaftes Laufwerk hinweist. Es ist schwer zu sagen, was auf ein fehlerhaftes Laufwerk hinweist und was nicht.
Jeff Welling
4

Ich möchte zu den Kommentaren in der anderen Antwort etwas hinzufügen, kann es aber aufgrund mangelnder Wiederholung nicht.

Sie müssen kein Cron-Skript erstellen. Das smartmontools-Paket enthält einen smartd-Daemon , der genau das erledigt, was Sie tun möchten: die regelmäßige Überprüfung des SMART-Status. Sie müssen lediglich eine Konfiguration erstellen und den Dienst starten. Das smartmontools-Paket enthält auch einige Beispielskripte, die smartd aufrufen kann, wenn ein Fehler auftritt.

Sgaduuw
quelle
Ich verwende kein Cron-Skript, sondern den SmartD-Daemon. Es spuckt Notizen im Systemprotokoll aus, ich bemerkte einige Zeilen, die ich normalerweise auf keinem anderen Laufwerk sehe, und versuchte einen Selbsttest, der bei der Überprüfung fehlgeschlagen war. Ich hatte noch nie zuvor einen solchen Fehler gesehen, also dachte ich, die Leute hier könnten ihn haben. Die Syslog-Ausgabe von smartd ist ziemlich kryptisch, wenn Sie nicht viel Erfahrung damit haben. Sie sagt Ihnen nicht genau, dass "Laufwerk X im Sterben liegt und ersetzt werden muss", obwohl es schön wäre, wenn dies der Fall wäre :)
Jeff Welling
2

Was werde ich in Ihrer Situation tun?

Zunächst finde ich heraus, welche Dateien betroffen sind. Es gibt einige Anweisungen dazu http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 Ja. In Ihrem Fall ist es schwieriger, weil Sie ein Array haben. Aber es ist möglich. Stellen Sie dann sicher, dass diese Datei gesichert ist, und schreiben Sie dann Nullen in den fehlerhaften Sektor. Zwei Dinge können passieren. 1. Das Laufwerk schreibt erfolgreich Nullen in diesen Sektor. Current_Pending_Sector, Reallocated_Sector_Ct sollte danach Nullen sein. 2. Das Laufwerk kann nicht in diesen Sektor schreiben. Dann ordnet es diesen Sektor einem "freien" Bereich zu.

In jedem Fall haben Sie ein festes Laufwerk. Sie sollten Ihre Datei aus der Sicherung wiederherstellen (da Sie einen Sektor davon überschrieben haben). Außerdem sollten Sie den erweiterten Selbsttest erneut ausführen, um sicherzustellen, dass keine Fehler mehr auftreten.

Bleib gesund!

PS Ich weiß, dass dieser Beitrag irgendwie alt ist. Aber ich habe es geschmeichelt. Und ich denke, es ist eine gute Idee, eine weitere gute Antwort zu geben.

Alexandr Priymak
quelle
1
handliche Infos!
Ich werde
0

Die Fahrt war wahrscheinlich auf dem Weg nach draußen. Die Unfähigkeit, von einem Teil des Laufwerks zu lesen, ist definitiv eine Fehlerbedingung, und es ist durchaus möglich, dass dies ohne andere typische Anzeichen eines Festplattenfehlers geschieht. Diese Art von Dingen ist normalerweise nicht vorübergehend; Ohne weitere Anzeichen kann es sich um einen schwachen Kopf, ein sehr leichtes Ausrichtungsproblem oder einen defekten Bereich auf einer Platte (Zylinder?) handeln.

Die andere Alternative ist, dass es einen SMART-Fehler gab; Sie möchten wirklich kein Laufwerk mit fehlerhafter Firmware betreiben.

Immer wenn Sie einen Fehler von SMART sehen, ist dies ein starkes Zeichen dafür, dass Sie ein neues Laufwerk erwerben sollten, um Datenverlust zu vermeiden. Es ist teilweise als Frühwarnsystem gedacht.

Falcon Momot
quelle
0
  • Backup so schnell wie möglich!

  • Wenn für dieses Laufwerk noch Garantie besteht, dann

    • Führen Sie die Check Utitity des Anbieters aus (normalerweise erhalten Sie eine Boot-CD).
    • Wenn dies einen Fehler zurückgibt, senden Sie Bingo zurück und warten Sie auf den Ersatz
    • von der Sicherung wiederherstellen
    • Problem gelöst - ENDE

  • Wenn für dieses Laufwerk keine Garantie besteht, sind Sie geschraubt
    • Es gibt noch Hoffnung ...
    • Da dies eigentlich nur ein Lesefehler ist, heißt das nicht, dass Sie nicht darauf schreiben können
    • Nachdem Sie ein Backup erstellt haben, können Sie versuchen, das Backup wiederherzustellen, da es dort unlesbare Sektoren mit neuen Daten überschreibt, die Sie tatsächlich zurücklesen können (normalerweise funktioniert dies, im Hintergrund ordnet das Laufwerk diese Blöcke die meiste Zeit den Ersatzsektoren zu )
    • badblocks Hierfür kann auch ein Tool verwendet werden (Sie haben bereits Backups, oder?)
      • Sie verwenden dies nicht, um die Festplatte zu testen (was bei Nie-Festplatten sowieso nicht viel Sinn macht), sondern um mehrmals in diese Sektoren zu schreiben
    • Sie können die intelligenten Tests erneut ausführen, und es besteht die Möglichkeit, dass sich diese unlesbaren Sektoren "selbst korrigieren".
    • Problem NICHT gelöst, Sie haben das Laufwerk nur länger haltbar gemacht, wahrscheinlich wird es schneller als normal ausfallen, vielleicht in einem Jahr, abhängig von seiner Verwendung, aber hey, Festplatten sind billig, besorgen Sie sich eine neue, wenn Ihre Daten für Sie wichtig sind - ENDE
cstamas
quelle
1
Moderne Festplatten (wie seit der Jahrhundertwende) funktionieren nicht so, wie Sie es im Abschnitt "Keine Garantie" beschrieben haben.
Chris S
3
Beginnen Sie mit dem Artikel Bad Sector von Wikipedia . Festplatten abstrahieren die logische Sektoradresse und ordnen sie Sektoren zu, die sie für gut hält. Einige Dienstprogramme von Anbietern (manchmal SMART, je nachdem, was vom Laufwerk verfügbar gemacht wird) können über neu zugeordnete Sektoren berichten. Bei Schreibvorgängen werden normalerweise fehlerhafte Sektoren erkannt. Normalerweise kann es nach dem Schreiben wieder gelesen werden. Dies ist die anfängliche Schreiboperation, die in fehlerhaften Sektoren häufig fehlschlägt. Sobald ein Sektor schlecht ist, ist er für immer schlecht, es gibt keine "Korrektur".
Chris S
1
Ich glaube, ich habe nichts gesagt, was gegen das ist, was Sie sagen, aber ich habe ein wenig geklärt, um es "technisch korrekter" zu machen.
Cstamas
2
Ich bin mir nicht sicher, warum die Leute Ihre Antwort so sehr abgelehnt haben. Ich denke du bist genau richtig. Die Leute haben wahrscheinlich falsch verstanden, dass Sie befürworten, ein schuppiges Laufwerk in Betrieb zu halten. Wenn man bedenkt, dass das OP ein Heimanwender ist, können die Kosten für ein neues Laufwerk selbst bei den heutigen Preisen durchaus ein Problem sein. Ich weiß, dass dies eine ziemlich alte Frage ist, aber von mir bekommst du zumindest eine +1. ;)
Markus A.
2
@cstamas: Kann auch zustimmen, dass Ihre Antwort genau richtig ist - wenn ein Laufwerk einen vollständigen Lauf badblocks -w(3x Schreiben, 3x Lesen) überlebt , ohne neue fehlerhafte Sektoren zu erstellen, werde ich es behalten. Ansonsten ist es einfach zu kaputt, um irgendwo verwendet zu werden.
mt_