Wie interpretiere ich HDD SMART-Ergebnisse?

58

Mein Laptop wurde in letzter Zeit etwas unzuverlässig und aus irgendeinem Grund begann ich zu vermuten, dass meine Festplatte allmählich ausfiel. Nach einigem Suchen im Internet fand ich Ubuntus Festplatten-Dienstprogramm im System-Menü und führte die lange SMART-Diagnose aus.

Da die Dokumentation für das Festplatten-Dienstprogramm jedoch sehr schlecht ist ( palimpsest?), Weiß ich nicht, wie ich die Ergebnisse interpretieren soll:

Wert über 50 Millionen für eine Lesefehlerrate, doch der Test ist gut ?!

Beispielsweise liegt die Lesefehlerrate bei über 50 Millionen (!), Die Bewertung wird jedoch mit "Gut" bewertet.

Würde es jemandem etwas ausmachen, mir zu erklären, wie die Ergebnisse dieser Tests zu interpretieren sind (insbesondere die Zahlen Normalized, Worst, Threshold und Value)? Und vielleicht sagen Sie mir, was sie von den Ergebnissen halten, die ich für meine Festplatte erzielt habe? (Vielen Dank)

Marty
quelle
Hat der "Hardware ECC Recovered" den gleichen Wert wie "Read Error Rate"? Meine Festplatte hat 676 Aus- und Wiedereinschaltungen, war an 285 Tagen eingeschaltet und weist 193 Millionen Fehler auf. Verglichen mit meinem hat Ihre Festplatte viel zu viele Fehler, aber ich spekuliere hier nur. Jedenfalls habe ich mir gerade selbst Sorgen gemacht
danizmax
Yip - beide Nummern sind gleich!
Marty

Antworten:

54

Sie haben eine gute Beschreibung der Funktionsweise von SMART in Wikipedia . Aber eine kurze Einführung:

  • Wert: Dies ist der vom Controller gemeldete Rohwert. Normalerweise ist es ein einfach zu verstehender Wert (wie Betriebsstunden oder Temperatur), aber manchmal nicht (wie die Lesefehlerrate). Unterschiedliche Hersteller können für diese Daten unterschiedliche Strukturen und Bedeutungen verwenden.

  • Normalisiert: Dies ist der oben angegebene normalisierte Wert, sodass ein höherer Wert immer besser ist. Eine Lese- / Fehlerrate von 114 ist also besser als 113. Auch hier ist es herstellerspezifisch, wie Ihre Festplatte Rohdaten in normalisierte Werte konvertiert.

  • Worst: Der schlechteste normalisierte Wert, den Ihr Laufwerk in der Vergangenheit hatte (wobei 99 wahrscheinlich die Werkseinstellung ist).

  • Schwellenwert: Wenn der normalisierte Wert niedriger als dieser Wert ist, fällt das Laufwerk wahrscheinlich aus.

Ihre Festplatte scheint also in Ordnung zu sein. Der Wert der Lesefehlerrate ist nicht der Zeitpunkt, zu dem Ihr Laufwerk ausgefallen ist, sondern eine Datenstruktur, die vom Hersteller Ihres Laufwerks abhängt.

Javier Rivera
quelle
Wenn ein bestimmtes Laufwerk keinen normalisierten Wert meldet , bedeutet dies, dass der schlechteste Wert und der Schwellenwert in Begriffen gemeldet werden, oder verwenden alle Laufwerke normalisierte Werte und nur einige beschriften sie als "Wert"?
DeveloperACE
25

Ja, im Allgemeinen ist der Rohwert für die Lesefehlerrate Unsinn. Die Werte, die Sie im Auge behalten möchten, sind die neu zugewiesene Sektoranzahl, die ausstehende Anzahl und die nicht korrigierbare Offline-Anzahl. Dies ist die Anzahl der fehlerhaften Sektoren, die korrigiert wurden, werden sollen oder nicht korrigiert werden können, und die Rohwerte dort sind im Allgemeinen sinnvoll und die Anzahl der Sektoren.

Wenn das Lesen eines Sektors fehlschlägt, wird er ausstehend. Wenn Sie das nächste Mal versuchen, in diesen Sektor zu schreiben, versucht das Laufwerk, ihn neu zu schreiben, und wenn dies funktioniert, wird alles wieder normal. Wenn der Sektor nicht korrekt geschrieben werden kann, wird der Sektor aus dem Reservepool neu zugeordnet. Wenn dies nicht möglich ist (vielleicht ist der Reservepool bereits aufgebraucht?), Wird es einfach offline_uncorrectable und versucht, Fehler herauszulesen oder darauf zu schreiben.

Psusi
quelle
1
Ich habe ein Laufwerk, das so gut wie nur die rohe Lesefehlerrate verfehlt. Der Test schlägt erst fehl, nachdem das Laufwerk eine Weile gelaufen ist, möglicherweise 15 Minuten. Unter Windows ist das Symptom, dass jeder Laufwerkszugriff den Prozess blockiert. Daher verwende ich Ubuntu-Tools, um festzustellen, was falsch ist. Ich bin jedoch ratlos darüber, was mit dem Laufwerk falsch ist, da die Lesefehlerrate nicht stimmt. Es scheint, als würde dies auf einen bevorstehenden Ausfall des Laufwerks hinweisen - dennoch weist das Laufwerk definitiv Probleme auf!
Michael
Ich sollte auch hinzufügen, dass die Testergebnisse selbst nicht eindeutig sind. Der Gesamttest sagt aus, dass er fehlgeschlagen ist, aber der Lesefehlerratentest, trotz eines lächerlichen Wertes (100/100, schlechtester, normalisierter Wert), sagt "Ok".
Michael
9

Psusi nagelt es.

Wenn Sie die Datenblätter (Whitepapers) von seagate.com lesen, werden Sie sehen, wie Festplatten hergestellt, getestet und wie sie wirklich funktionieren. Es gibt keine perfekte Festplatte, die es nie gegeben hat und niemals geben wird (Geschichte und Fakten). Früher mussten wir die fehlerhaften Sektoren von einer Liste auf Papier, die in der neuen Laufwerkbox enthalten war, in den HDD-Controller eingeben, sodass der Controller sie übersprang.

Moderne Antriebe verfügen über eine Fehlerkorrektur. Ab dem ersten Tag sind die Sektoren schlecht.

Sie ordnen sie zu, dh das Laufwerk überspringt fehlerhafte Sektoren. Tatsächlich werden sie "logisch ausgelagert" - der fehlerhafte Sektor wird einem neuen, guten Ersatzzylindersektor zugeordnet (er hat Ersatzzylinder - stellen Sie sich Zylinder als Spuren vor). Dies ist alles für die Außenwelt transparent - mit Ausnahme des SMART util.

Jeder Hersteller kann tun, was er will, daher setzen einige den Fehlerzähler auf Null, obwohl es möglicherweise 10 fehlerhafte Sektoren gibt, sobald das Laufwerk hergestellt wird.

In der Firmware des Laufwerks gibt es eine 3-fache Regel - es liest einen Sektor 3-mal und wenn alle 3-mal schlecht sind, führt es möglicherweise eine "Neukalibrierung" im laufenden Betrieb durch und liest 3 weitere Male. Wenn das Laufwerk immer noch nicht in Ordnung ist, ordnet es diesen Sektor einem der Ersatzsektoren zu. Dies ist tief in der Firmware verankert, geschieht jedoch kontinuierlich im Hintergrund und ist für den Benutzer transparent.

Ob der Hersteller Rohfehler meldet, wenn 3 fehlerhafte Lesevorgänge vorliegen oder nachdem die Kalibrierung abgeschlossen wurde, liegt an ihnen. So wie er oben sagt, ist es nicht wichtig, es sei denn, Sie haben viele Laufwerke der gleichen Art und Sie sehen einige seltsame Trends.

Punkt 2: Alle Festplatten haben natürliche Lesefehler, das können Sie auch bei Seagate lernen, wenn Sie möchten. aber sie haben alle Fehler im laufenden Betrieb. und werden erneut gelesen und bestehen normalerweise den Test auf CRC-Fehler. Wenn nicht, versucht das Laufwerk, es auszutauschen. Wenn Sie die Festplatte kühl laufen lassen, hält sie lange an und es gehen vielen nie die Reservezylinder aus. aber sieh dir das an, wie dir psusi sagt!

Ich schreibe dies auf einem alten PC, auf dem eine der ersten 1-GB-Festplatten läuft, die jemals hergestellt wurden. und ist immer noch gut. (Im gesichert) (kein Mangel an Kühlung jemals ...) Hitze ist der Mörder Nr. 1 und Stromstöße, ich betreibe eine USV. Prost und guten Tag. Ich hoffe das hilft. (Habe schon einmal einen DatA General-Festplattencrash gesehen? Und fülle den Raum mit riesigen Mengen an Aluminiumwolle, lockigen Hinweisen? Damals viel Spaß ... nie ein langweiliger Moment ....

jtgh
quelle