Warum haben verschiedene Hersteller unterschiedliche SMART-Werte?

23

Zunächst einmal, glaube ich, weiß jeder, dass Festplatten viel häufiger ausfallen, als die Hersteller zugeben möchten . Google hat eine Studie durchgeführt , aus der hervorgeht, dass bestimmte Rohdatenattribute, die vom SMART-Status der Festplattenberichte abhängen, in enger Beziehung zum zukünftigen Ausfall der Festplatte stehen können.

Wir stellen beispielsweise fest, dass Laufwerke nach ihrem ersten Scan-Fehler mit 39-mal höherer Wahrscheinlichkeit innerhalb von 60 Tagen ausfallen als Laufwerke ohne solche Fehler. Erste Fehler bei Neuzuordnungen, Offline-Neuzuordnungen und Probenzahlen hängen auch stark mit höheren Ausfallwahrscheinlichkeiten zusammen. Trotz dieser starken Korrelationen stellen wir fest, dass Ausfallvorhersagemodelle, die nur auf SMART-Parametern basieren, wahrscheinlich stark in ihrer Vorhersagegenauigkeit eingeschränkt sind, da ein großer Teil unserer ausgefallenen Laufwerke keinerlei SMART-Fehlersignale gezeigt hat.

Seagate scheint zu versuchen, diese Informationen über ihre Laufwerke zu verschleiern, indem behauptet wird, dass nur ihre Software den genauen Status ihres Laufwerks genau bestimmen kann und ihre Software Ihnen die Rohdatenwerte für die SMART-Attribute nicht mitteilt. Western Digital hat meines Wissens keinen solchen Anspruch erhoben, aber das Statusbericht-Tool scheint auch keine Rohdatenwerte zu melden.

Ich habe HDtune und smartctl von smartmontools verwendet, um die Rohdatenwerte für jedes Attribut zu erfassen. Ich habe in der Tat festgestellt, dass ... ich Äpfel mit Orangen vergleiche, wenn es um bestimmte Eigenschaften geht. Ich habe zum Beispiel festgestellt, dass die meisten Seagate-Laufwerke viele Millionen Lesefehler melden, während Western Digital 99% der Zeit 0 für Lesefehler anzeigt. Ich habe auch festgestellt, dass Seagate viele Millionen Suchfehler meldet, während Western Digital immer 0 zu melden scheint.

F : Wie normalisiere ich diese Daten? Produziert Seagate Millionen von Fehlern, während Western Digital keine produziert? Der Wikipedia-Artikel zum SMART- Status besagt, dass Hersteller diese Daten auf unterschiedliche Weise melden können.

Hier ist meine Hypothese:

Ich glaube, ich habe einen Weg gefunden, die Daten zu normalisieren (ist das der richtige Begriff?).

Seagate-Laufwerke verfügen über ein zusätzliches Attribut, über das Western Digital-Laufwerke nicht verfügen (Hardware-ECC wiederhergestellt). Wenn Sie die Anzahl der Lesefehler von der Anzahl der wiederhergestellten ECC-Fehler subtrahieren, erhalten Sie wahrscheinlich eine 0. Dies scheint der Anzahl der von Western Digitals gemeldeten "Lesefehler" zu entsprechen. Dies bedeutet, dass Western Digital nur Lesefehler meldet, die nicht korrigiert werden können, während Seagate alle Lesefehler zählt und Ihnen mitteilt, wie viele davon behoben werden konnten.

Ich hatte ein Seagate-Laufwerk, bei dem die Anzahl der Lesefehler unter der Anzahl der wiederhergestellten ECC-Dateien lag, und ich bemerkte, dass viele meiner Dateien beschädigt wurden. So bin ich auf meine Hypothese gekommen. Die Millionen von Suchfehlern, die Seagate verursacht, sind mir immer noch ein Rätsel.

Bitte bestätigen oder korrigieren Sie meine Hypothese, wenn Sie zusätzliche Informationen haben.

Hier ist der intelligente Status meines Western Digital-Laufwerks, damit Sie sehen können, wovon ich spreche:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Bearbeiten: Hier ist das Seagate-Laufwerk, von dem ich gesprochen habe, das Datenbeschädigung verursacht hat. Diese Daten stammen von HDTune.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

Die Tatsache, dass die wiederhergestellte Hardware-ECC größer ist als die Raw-Read-Fehlerrate, ist meiner Meinung nach nicht intuitiv.

Ich habe festgestellt, dass dies ein "normales" Seagate-Laufwerk ist, bei dem der wiederhergestellte ECC der Raw Read Error Rate entspricht:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

BEARBEITEN:

Ich möchte klarstellen, dass ich weiß, dass Google SMART im Allgemeinen für nutzlos hält. Ich weiß, dass jeder seine Daten sichern sollte. Ich bin jedoch im Geschäft, Computer anderer Leute zu reparieren. Die meisten Menschen haben keine Backups oder RAID. Für Unternehmen ist es nicht kosteneffektiv, Fehler auf Festplatten zu beheben. Sie führen sie nur auf einem RAID aus, bis sie sterben. In meiner Arbeit finde ich es nützlich, den SMART-Status der Festplatte zu überprüfen. Es dauert ungefähr 30 Sekunden. Wenn ich das Glück habe, dass ein fehlerhaftes Laufwerk einen Hinweis auf einen Fehler wie Scanfehler oder neu zugewiesene Sektoren anzeigt, weiß ich, dass das Laufwerk zum Teufel wird. Wenn es keinen solchen Hinweis gibt, werde ich wahrscheinlich viele Stunden damit verbringen, die Langsamkeit und Datenbeschädigung zu beheben, bis ich schließlich feststelle, dass die Festplatte defekt ist.

Ich versuche nur, diesen Prozess zu verfeinern.

James T
quelle
Im Administrationsmenü unter (glaube ich) Datenträgerverwaltung finden Sie intelligente Informationen. Es kann zusätzliche Fähigkeiten gegenüber smartctl haben, aber ich habe es eine Weile nicht mehr benutzt und habe es nicht mehr vor mir.
Jarvin
@Dan Hallo Dan, ich bin mir nicht sicher, über welches Windows-Tool du sprichst. Könntest Du das erläutern?
James T
Das Problem mit SMART ist, dass es ein bisschen eine falsche Bezeichnung ist. es gibt keine eigentliche Intelligenz, nur ein paar Gleichungen (wahrscheinlich nicht einmal Heuristiken). Alles was es tun kann, ist sich selbst zu überwachen und die Zahlen zu melden, das ist alles. Ich habe zum Beispiel ein Laufwerk mit einem schlecht angeschlossenen Netzkabel, das sich mehrere Male sehr schnell ein- und ausschaltete (ein Klickgeräusch). Ich habe den Stecker neu angeschlossen, damit er jetzt reibungslos funktioniert. Aufgrund des vorübergehenden (behebbaren) Fehlers, der einmal aufgetreten ist, hat er jetzt ein RRER-Ereignis im SMART dauerhaft aufgezeichnet, sodass es so aussieht, als ob es fehlschlägt.
Synetech

Antworten:

14

Es scheint, dass verschiedene Hersteller SMART-Werte für manchmal radikal unterschiedliche Dinge verwenden, wie Sie hier sehen können :

Meine Festplatte (n) in ReadyNAS meldet eine hohe SMART Raw-Lesefehlerrate, Suchfehlerrate und wiederhergestellte Hardware-ECC. Was sollte ich tun?

Seagate verwendet diese SMART-Felder für interne Zählungen. Dies ist ein bekanntes Problem bei Seagate-Festplatten. Suchen Sie in anderen Bereichen nach abnormalen Zählungen, insbesondere nach der Anzahl der neu zugewiesenen Sektor-Ct- und ATA-Fehler.

Also, wenn es um Ihre eigentliche Frage geht ...

Wenn ich das Glück habe, dass ein fehlerhaftes Laufwerk einen Hinweis auf einen Fehler wie Scanfehler oder neu zugewiesene Sektoren anzeigt, weiß ich, dass das Laufwerk zum Teufel wird. Wenn es keinen solchen Hinweis gibt, werde ich wahrscheinlich viele Stunden damit verbringen, die Langsamkeit und Datenbeschädigung zu beheben, bis ich schließlich feststelle, dass die Festplatte defekt ist.

Ich würde sagen, eine gute Faustregel lautet: Sie können nur erwarten, dass SMART-Einstellungen bei demselben Laufwerkshersteller und möglicherweise sogar bei demselben Laufwerksmodell vergleichbar sind!

Wenn Sie also diese SMART-Zählungen diagnostizieren möchten, denken Sie daran ... Die "Anzahl der Lesefehler-Wiederholungen" eines Herstellers kann etwas völlig anderes bedeuten als die eines anderen Herstellers. Traurig aber wahr. :(

Jeff Atwood
quelle
14

Okay, zuallererst stimme ich Ihrer Prämisse nicht zu.

Google hat eine Studie durchgeführt, aus der hervorgeht, dass bestimmte Rohdatenattribute, die vom SMART-Status der Festplattenberichte abhängen, in enger Beziehung zum zukünftigen Ausfall der Festplatte stehen können.

In der Tat fanden sie das Gegenteil:

... stellen wir fest, dass Modelle zur Ausfallvorhersage, die nur auf SMART-Parametern basieren, wahrscheinlich stark in ihrer Vorhersagegenauigkeit eingeschränkt sind, da ein großer Teil unserer ausgefallenen Laufwerke überhaupt keine SMART-Fehlersignale gezeigt hat.

Zweitens sind SMART-Schwellenwerte nicht standardisiert. Die Firmware auf dem Laufwerk selbst kennzeichnet ein Attribut als "Pre-Failure", aber die Rohwerte sind für den Benutzer bedeutungslos. Seagate sagt zum Beispiel :

Verschiedene Attribute werden überwacht und an bestimmten Grenzwerten gemessen. Wenn ein Attribut einen Schwellenwert überschreitet, ändert sich ein allgemeiner SMART-Status-Test von "Bestanden" in "Nicht bestanden".

Die SMART-Werte, die möglicherweise von SMART-Software von Drittanbietern ausgelesen werden, basieren nicht auf der Verwendung der Werte auf den Seagate-Festplatten. Seagate bietet keine Unterstützung für Softwareprogramme, die behaupten, einzelne SMART-Attribute und Schwellenwerte gelesen zu haben. Ältere Laufwerke weisen möglicherweise eine gewisse historische Richtigkeit auf, aber neue Laufwerke werden ohne Zweifel neuere Lösungen, Attribute und Schwellenwerte enthalten.

tl; dr Zusammenfassung:

Rohe SMART-Werte sind fast bedeutungslos, da verschiedene Hersteller sie auf unterschiedliche Weise verwenden und unterschiedliche Schwellenwerte usw. haben. Die Laufwerksfirmware selbst gibt an, wann ein "Pre-Failure" vorliegt sehr zuverlässig.

Mach regelmäßig Backups!

sml
quelle
Aufgrund Ihrer Kommentare scheint es nicht so zu sein, als würden Sie meinen gesamten Beitrag lesen. Aus diesem Grund habe ich alle Hintergrundinformationen und Zitate eingegeben. Sie haben Google zitiert, aber nur einen sehr ausgewählten Teil davon. Wenn Sie den Teil direkt vor Ihrem Zitat lesen, wird angegeben, dass einige Attribute eine starke Fehlerkorrelation aufweisen, z. B. neu zugewiesene Sektorzählungen. Die Hersteller melden nicht, dass sich ihre Laufwerke nach einer Neuzuweisung eines Sektors in einem Zustand vor dem Ausfall befinden. Dies zeigt deutlich, dass Sie anhand der Rohdaten einen besseren Überblick über den Zustand des Laufwerks erhalten können.
James T
Ich möchte auch hinzufügen, dass mein Seagate-Laufwerk meine Daten beschädigt hat und die Rohdatenwerte sich merklich von denen unterschieden, die ich als gesunde Laufwerke kennengelernt habe. Offensichtlich stimmt etwas nicht, wenn der Hersteller die Schwelle festlegt.
James T
Ich denke, Sie müssen meinen Beitrag und Link erneut lesen. Rohe SMART-Werte sind keine zuverlässigen Indikatoren für irgendetwas . Der Google-Bericht besagt nicht, dass "einige Attribute eine starke Fehlerkorrelation aufweisen". Was sie tut , sagen ist , dass trotz der Tatsache , dass „nach ihrem fi Scan - Fehler rst, Laufwerke sind 39 mal häufiger innerhalb von 60 Tagen als Laufwerke ohne solche Fehler scheitern“, weniger als 15% der Antriebs Bevölkerung versagt hatte keine Fehler beim Scannen. Ist es ein verlässlicher Indikator, wenn es in 15% der Fälle richtig ist?
sml
1
@scottl Ich bin mir nicht sicher, woher du deine 15% hast. Das habe ich im Artikel nicht gesehen. Selbst wenn nur 15% ihrer Laufwerke Scanfehler aufwiesen ... stellten sie fest, dass ein Laufwerk mit Scanfehlern mit 39-facher Wahrscheinlichkeit innerhalb von 60 Tagen ausfällt. Dies bedeutet nicht, dass Ihr Laufwerk nicht ausfällt, es sei denn, Sie haben Scanfehler. Dies bedeutet nur, dass bei einem Scanfehler die verbleibende Lebensdauer Ihrer Festplatten wahrscheinlich kurz ist. Hast du jemals Statistiken gemacht? Ich fand es sehr nützlich.
James T
1
Die häufig gestellten Fragen zu smartmontools lauten: Die SMART-Rohattribute (Temperatur, Einschaltdauer usw.) werden in herstellerspezifischen Strukturen gespeichert. Manchmal sind diese seltsam. Hitachi-Festplatten (zumindest einige von ihnen) speichern die Einschaltdauer in Minuten anstatt in Stunden (siehe nächste Frage unten). Auf IBM-Festplatten (von denen mindestens einige) sind nicht nur eine, sondern drei Temperaturen in der Rohstruktur gespeichert. Und so weiter.
sml
4

Ich bin mir nicht ganz sicher, was die Frage ist, die Sie stellen. Sie scheinen die ganze Frage und Antwort in einer zusammengefasst zu haben, aber ...

Haben Sie die Festplattenmetriken mit denen von SeaTools verglichen ?

Es ist das Standard-Hardwarediagnosetool von Seagate und AFAIK das am häufigsten verwendete Festplattendiagnosetool.

Seien Sie nicht überrascht, wenn Sie feststellen, dass die Tools ungünstige Ergebnisse über ihre Konkurrenten melden. Die Tools funktionieren im Allgemeinen mit Festplatten aller Hersteller, aber das bedeutet nicht, dass sie ihre Konkurrenten dabei gut aussehen lassen.

Haben Sie noch nie den Witz gehört? "99,99% aller Statistiken stimmen, außer natürlich diese Statistik."

Evan Scholle
quelle
1
Ja ... es ist ein bisschen verwirrend. Grundsätzlich habe ich alle mir bekannten Hintergrundinformationen vor der Frage und alle meine Tests und Vermutungen nach der Frage eingefügt. Hier ist meine Frage "Wie normalisiere ich diese Daten?". Grundsätzlich. Wie kann ich festlegen, dass alle Datenattribute eines Herstellers dasselbe bedeuten wie die Datenattribute eines anderen Herstellers, damit ich sie genau vergleichen kann.
James T
@James Sie können versuchen, Daten aus so vielen Unterschieden wie möglich zu sammeln und herauszufinden, wie die Daten jeweils unterschiedlich interpretiert werden. Es kann sein, dass sie alle korrekte Daten melden, sie interpretieren sie nur auf eine andere Art und Weise, wie Sie betont haben. Deshalb habe ich das Statistikzitat hinzugefügt ... Nur weil die Daten gut sind, heißt das nicht, dass die Interpretationen gut sind.
Evan Plaice
2
Ja, das habe ich getan. Ich habe über 70 verschiedene Festplatten überprüft und die großen Unterschiede bei Such- und Lesefehlern sind die Attribute, die mir aufgefallen sind. Ich vermute, dass bei Seagate-Laufwerken Lesefehler in irgendeiner Weise mit der wiederhergestellten Hardware zusammenhängen. Ich bin mir nicht ganz sicher, wie diese Beziehung aussieht. Ich hatte gehofft, jemand könnte es mir sagen. Ich hatte auch gehofft, jemand könnte mir sagen, warum Seagate-Laufwerke große Suchfehler aufweisen, während Western Digital immer Null zu haben scheint.
James T
@James Vielleicht kommt jemand mit einer besseren Antwort ... Meine ehrliche Vermutung ist, dass Western Digital wahrscheinlich nicht den genauen SMART-Spezifikationen entspricht. Das ist das Problem mit Hardwarestandards, sie sind gute Verkaufsargumente, aber es gibt immer ein paar Hersteller, die alle Vorteile vermarkten, ohne die vollständigen Spezifikationen einzuhalten.
Evan Plaice
Ja, die Abweichung vom Standard ist das, was ich mir vorgestellt habe und was der Wikipedia-Artikel vorschlägt. Ich möchte wissen, wie sie sich unterscheiden, damit ich die beiden Hersteller (und möglicherweise auch andere) richtig vergleichen kann. Danke für die Kommentare Evan. Hoffentlich klärt dies die Frage auch für andere.
James T
2

In der physischen Realität von Festplatten-Interna weisen Festplatten aller Marken, die größer als 100 MB sind, viele physische Lesefehler auf. Die meisten davon werden von ECC sicher korrigiert, einige (hoffentlich sehr wenige) werden von ECC falsch korrigiert, und der Rest (wenige, aber mehr als die falschen Korrekturen) wird als fehlgeschlagener Lesevorgang an den Computer zurückgemeldet und sollte das Laufwerk auch automatisch an einen anderen Ort bringen schlechter Sektor.

Zusätzlich zur Korrektur von unformatierten Lesefehlern korrigiert ECC auch Lesevorgänge, bei denen der Hardware-Gedanke in Ordnung war, die zurückgegebenen Bits jedoch leicht falsch waren. Daher könnte die korrigierte ECC lauten: "Raw Read fehlgeschlagen, aber durch ECC + behoben. Raw Read war erfolgreich, war aber falsch und wurde durch ECC behoben."

Somit scheinen zwei Interpretationen der Daten möglich zu sein:

A. Nicht von Seagate stammende Laufwerke enthalten keine ECC-korrigierten Lesefehler in der "Anzahl der unformatierten Lesefehler", sondern nur die nicht korrigierbaren Fehler.

B. Seagate betrachtet es als Lesefehler, wenn die ECC einen Fehler mit den Daten feststellt, auch wenn der Low-Level-Schaltkreis dies nicht bemerkt hat, andere nicht.

Die Normalisierung wird sehr unterschiedlich sein, je nachdem, welche Theorie (A oder B) richtig ist.

Jakob Böhm
quelle
> sollte auch bewirken, dass das Laufwerk den fehlerhaften Sektor automatisch verschiebt. Was ist dann die Beziehung zwischen den Uncorrectable Sector Count Relocated Ereigniszählung und Current Pending Sector Count Felder? Würde es nicht den Strom erhöhen , dann entweder umgezogen oder nicht korrigierbar ? Warum sollte es nicht korrigierbar sein? Wenn es versucht hat, einen fehlerhaften Sektor neu zuzuordnen, und dies fehlgeschlagen ist (dh der Ersatzsektor ist fehlerhaft), sollte es dann nicht versuchen, einen anderen Ersatzsektor neu zuzuordnen? Es ist kein Reifen, der nur einen Ersatz hat.
Synetech
100 MB? Meinen Sie 100 GB?
Peter Mortensen