Fällt meine Festplatte aus?

41

Ich habe gerade versucht, einen Test auf meinem Festplattenlaufwerk durchzuführen, und es möchte keinen Selbsttest durchführen. Hier ist das Ergebnis:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Fällt diese Festplatte also aus?

Michel
quelle
Wenn ich das Grafiktool verwende, heißt es "Selbsttest fehlgeschlagen"
Michel,
3
Die wiederholten read failureMeldungen weisen normalerweise auf einen Datenträgerfehler hin, also ja ...
HBruijn
23
Michel, willkommen bei SF, und vielen Dank für eine gute erste Frage. Wie Sie vielleicht sehen, ist eine gute erste Frage eine seltene und kostbare Sache. Sie hatten eine der Website entsprechende Hypothese ( "Meine Festplatte ist defekt "), haben das entsprechende Tool gefunden und die Verwendung erlernt, brauchten jedoch Hilfe bei der Interpretation der Ergebnisse. Sie kamen also hierher, gaben uns alle relevanten Informationen, keinen überflüssigen Müll, und stellten eine Frage, die ein Modell der Prägnanz war. Danke - bitte bleiben Sie hier!
MadHatter unterstützt Monica
3
+1: Ausgezeichnete erste Frage. Registrieren Sie Ihr Konto und sehen Sie sich einige der anderen Sites im Stack Exchange- Netzwerk an, um Serverfehler optimal zu nutzen. Wir hoffen, dass Sie mehr hochwertigen Content zu Stack Exchange beitragen.
bwDraco

Antworten:

43

Ihre Fahrt macht sehr gerne einen Selbsttest; Aus der Zusammenfassung geht hervor, dass es in der letzten Stunde mehr als fünf davon gegeben hat. Und alle haben zu Beginn des Tests mit Lesefehlern versagt.

Ja, diese Festplatte fällt aus. Wie der berühmte Google Labs-Bericht sagte (obwohl ich im Moment keine Verknüpfung herstellen kann), smartctlist es wahrscheinlich (wie ich umschreibe) , dass Ihr Laufwerk ausfällt.

Bearbeiten : Versuche nicht, es zu speichern. Holen Sie sich alle Daten davon und ersetzen Sie es.

MadHatter unterstützt Monica
quelle
9
Wenn es scheitert, scheitert es. Eine Reparatur kann technisch möglich sein, ist jedoch im Vergleich zu den Kosten eines neuen Laufwerks äußerst unwahrscheinlich.
Sobrique
7
@Michel Ein Fehlen eines Selbsttest - Fehler ist kein Beweis , dass ein Laufwerk nicht versagt, leider, aber das Vorhandensein eines Fehlers Selbsttest soll immer als Beweis dafür, dass es wird scheitern.
Rob Moir
1
@Michel: Du könntest versuchen die Kabel zu ersetzen. Manchmal kann ein Laufwerk nicht aufgrund von Problemen mit dem Laufwerk ausfallen, sondern aufgrund schlechter Strom- oder Datenkabel.
Thomas Padron-McCarthy
1
@ JorgeNerín: Ich denke, Sie machen einen ausgezeichneten Punkt, aber der Beweis ist, dass sowohl ich als auch das OP es bereits verstehen - das OP muss, für (s) hat er in den letzten zwei Stunden mindestens fünf von ihnen initiiert. In Bezug auf Tests stimme ich Ihnen zu, dass ein langer Test ein besserer Indikator für einen fehlerfreien Zustand des Laufwerks ist. Wenn er jedoch in den ersten 10% des Laufwerks sowohl bei Kurz- als auch bei Beförderungstests fehlschlägt, können wir davon ausgehen, dass dies der Fall ist Schuss. Was erhoffen Sie sich von umfangreicheren Tests?
MadHatter unterstützt Monica
2
@ JorgeNerín <grins> das macht Sinn! Ich habe nur deshalb gesprochen, weil der OP damit begonnen hat, sein Laufwerk zu verändern: " Ich habe gerade versucht, einen Test auf meiner Festplatte durchzuführen, und er möchte keinen Selbsttest durchführen. " Ich denke nicht, dass einer von uns denkt, dass das Laufwerk noch am Leben ist oder dass er Selbsttests selbst plant!
MadHatter unterstützt Monica
10

Um Ihre Frage zu beantworten, ist ein fehlgeschlagener SMART-Test ein sicherer Hinweis auf einen bevorstehenden Laufwerksausfall. Sie sollten Ihre Daten so schnell wie möglich sichern und das Laufwerk austauschen, um möglichen Datenverlust zu vermeiden.

@ sj0h erwähnte den Ladezykluszähler, der mit 447.630 sehr hoch ist. (Die meisten modernen Festplatten sind für 600.000 Lade- / Entladezyklen ausgelegt.) Dies wird in der Regel durch die Advanced Power Management (APM) -Funktion verursacht, die versucht, Energie zu sparen, indem die Köpfe nach einigen Sekunden geparkt (von den Platten entladen) werden müßig. Die Köpfe werden bei Bedarf wieder auf die Platten geladen. Auf den meisten Systemen, auf denen Festplatten nur sporadisch ein- und ausgeschaltet werden, kann dies zu zahlreichen Lade- / Entladezyklen führen. Führen Sie zum Deaktivieren von APM den folgenden Befehl an einer Root-Eingabeaufforderung aus:

smartctl -s apm,off /dev/sda

Dieser Befehl muss jedes Mal ausgeführt werden, wenn das System aus- oder wieder eingeschaltet oder das Laufwerk anderweitig ausgeschaltet wird, da diese Einstellung beim Ausschalten des Laufwerks nicht beibehalten wird.

Meiner Erfahrung nach wird dies die Anzahl der Lade- / Entladezyklen drastisch reduzieren und folglich die Wahrscheinlichkeit verringern, dass Sie diese Art von Ausfall in Zukunft erneut erleben werden. Beachten Sie jedoch, dass dies den Stromverbrauch und die Laufwerkstemperatur erhöht. Wenn das Laufwerk ständig mit Temperaturen über 50 ° C betrieben wird, erhöht sich das Risiko eines vorzeitigen Ausfalls. Daher können Sie APM in den wärmeren Monaten eingeschaltet lassen (oder einschalten, wenn es ausgeschaltet ist).

bwDraco
quelle
2

Berücksichtigen Sie neben den Lesefehlern auch die Anzahl der Ladezyklen. Bei fast 500.000 kann dies auf einen Grund für einen Ausfall oder zumindest einen hohen Lastzyklusverschleiß hinweisen. Es gibt einen Ladezyklus für jede Minute Einschaltzeit. Stellen Sie nach dem Ersetzen des Laufwerks sicher, dass das neue Laufwerk dies nicht ebenfalls tut.

sj0h
quelle
Sehr gute Beobachtung. Wie kann man diagnostizieren, warum das Laufwerk jede Minute aus- und wieder eingeschaltet wird?
Dotancohen
@dotancohen, siehe meine Antwort - APM ist schuld.
bwDraco
2

Ja, Sie haben 16 Sektoren unlesbar gemacht, Sie haben versucht, mehrere Tests durchzuführen, die alle in ungefähr demselben Bereich des Laufwerks fehlgeschlagen sind. Sichern Sie also schnell, aber denken Sie daran, dass Sie bereits Daten haben, auf die nicht mehr zugegriffen werden kann Sektoren 92290592, 92290596.

Möglicherweise haben Sie andere problematische Bereiche. Sie wissen immer noch nicht, ob diese 16 Sektoren aufeinanderfolgend oder verteilt sind. Wenn Sie nach dem Backup spielen möchten, können Sie einen selektiven Selbsttest mit -t select, startlba-endlba durchführen.

Current_Pending_Sector bedeutet, dass die Festplattenfirmware versucht hat, es zu lesen, dies jedoch nicht kann. Sie versucht es ein paar Mal (immer wenn das Betriebssystem danach fragt), bis es fehlschlägt und als Offline_Uncorrectable markiert, oder ersetzt den beschädigten Sektor durch einen anderen Ersatzsektor OS schreibt darauf (erhöht dabei Reallocated_Sector_Ct).

Jorge Nerín
quelle
1

Ich würde das Laufwerk persönlich ersetzen. Wenn Sie dies aus irgendeinem Grund noch nicht tun möchten, aber noch eine Weile mit dem Laufwerk verweilen, müssen Sie sicherstellen, dass Sie die fehlerhaften Bereiche nicht versehentlich für neue Dateien verwenden.

Ich hatte so ein Laufwerk auf einem alten Mac, der gerade Videos aufzeichnete, und entschied, dass ich es noch nicht ändern wollte, da die Videos einfach nur schön zu haben waren. Also musste ich die Fehler eingrenzen. Zuerst habe ich einen leeren Ordner nur für fehlerhafte Dateien erstellt, und dann habe ich versucht, alle vorhandenen Dateien auf der Festplatte zu lesen. Alle fehlerhaften Dateien wurden in das Verzeichnis für fehlerhafte Dateien verschoben (hoffentlich nur unwichtig).

Dann habe ich eine Menge von Ein-Megabyte-Dateien mit eindeutigen Namen erstellt, um die Festplatte zu füllen (so dass sich jetzt der gesamte leere Speicherplatz in einer dieser 1-MB-Dateien befand) und dann den Vorgang wiederholt. Alle fehlerhaften Dateien wurden in das Verzeichnis für fehlerhafte Dateien verschoben. Die verbleibenden Dateien waren fehlerfrei und konnten gelöscht werden, um den fehlerhaften Speicherplatz freizugeben.

Sie können das Laufwerk jetzt etwas länger verwenden, aber nicht für wichtige Dinge. Es wird mehr scheitern und es wird höchstwahrscheinlich unpraktisch sein, wenn es passiert.

Thorbjørn Ravn Andersen
quelle
1

Dies ist kein sehr gutes Zeichen. Sie sollten sicherstellen, dass der Inhalt der Festplatte gesichert wird, und die Festplatte nicht für wichtige Zwecke verwenden.

Ich habe jedoch Datenträger mit ausgefallenen Sektoren gesehen, die sie neu zugewiesen haben und jahrelang betriebsbereit waren, sodass Sie sie für eine Weile aufbewahren konnten, z. B. für unwichtige Dinge oder zusätzliche Sicherungen.

In diesem Fall müssen Sie feststellen, welche Dateien von den nicht lesbaren Sektoren beschädigt wurden, und in diese Sektoren schreiben, um die erneute Zuordnung von der Festplatte zu erzwingen (indem Sie sie von "Current_Pending_Sector" nach "Reallocated_Sector_Ct" verschieben). Wenn Sie Linux verwenden, lesen Sie http://smartmontools.sourceforge.net/badblockhowto.html . Sobald die Sektoren neu zugeordnet wurden, sollte der Selbsttest unleserlichere Sektoren entweder bestehen oder melden.

Ich bin mit den meisten Antworten nicht einverstanden, da ich glaube, dass schlechte Sektoren nicht unbedingt ein Hinweis auf ein bevorstehendes Versagen sind. Wie http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ sagt, "beginnt jede Festplatte irgendwann in ihrem Leben, fehlerhafte Sektoren zu produzieren".

a3nm
quelle
Ich stimme zwar zu, dass der Fehler nicht sicher ist, wenn ein fehlerhafter Sektor auftritt, aber die Wahrscheinlichkeit, dass ein Treiber nach einem fehlerhaften Sektor ausfällt, steigt erheblich (ich denke, das war auch im Google-Bericht, aber ich kann die tatsächliche Quelle derzeit nicht finden)
Dennis Nolte