Zunächst einmal, glaube ich, weiß jeder, dass Festplatten viel häufiger ausfallen, als die Hersteller zugeben möchten . Google hat eine Studie durchgeführt , aus der hervorgeht, dass bestimmte Rohdatenattribute, die vom SMART-Status der Festplattenberichte abhängen, in enger Beziehung zum zukünftigen Ausfall der Festplatte stehen können.
Wir stellen beispielsweise fest, dass Laufwerke nach ihrem ersten Scan-Fehler mit 39-mal höherer Wahrscheinlichkeit innerhalb von 60 Tagen ausfallen als Laufwerke ohne solche Fehler. Erste Fehler bei Neuzuordnungen, Offline-Neuzuordnungen und Probenzahlen hängen auch stark mit höheren Ausfallwahrscheinlichkeiten zusammen. Trotz dieser starken Korrelationen stellen wir fest, dass Ausfallvorhersagemodelle, die nur auf SMART-Parametern basieren, wahrscheinlich stark in ihrer Vorhersagegenauigkeit eingeschränkt sind, da ein großer Teil unserer ausgefallenen Laufwerke keinerlei SMART-Fehlersignale gezeigt hat.
Seagate scheint zu versuchen, diese Informationen über ihre Laufwerke zu verschleiern, indem behauptet wird, dass nur ihre Software den genauen Status ihres Laufwerks genau bestimmen kann und ihre Software Ihnen die Rohdatenwerte für die SMART-Attribute nicht mitteilt. Western Digital hat meines Wissens keinen solchen Anspruch erhoben, aber das Statusbericht-Tool scheint auch keine Rohdatenwerte zu melden.
Ich habe HDtune und smartctl von smartmontools verwendet, um die Rohdatenwerte für jedes Attribut zu erfassen. Ich habe in der Tat festgestellt, dass ... ich Äpfel mit Orangen vergleiche, wenn es um bestimmte Eigenschaften geht. Ich habe zum Beispiel festgestellt, dass die meisten Seagate-Laufwerke viele Millionen Lesefehler melden, während Western Digital 99% der Zeit 0 für Lesefehler anzeigt. Ich habe auch festgestellt, dass Seagate viele Millionen Suchfehler meldet, während Western Digital immer 0 zu melden scheint.
F : Wie normalisiere ich diese Daten? Produziert Seagate Millionen von Fehlern, während Western Digital keine produziert? Der Wikipedia-Artikel zum SMART- Status besagt, dass Hersteller diese Daten auf unterschiedliche Weise melden können.
Hier ist meine Hypothese:
Ich glaube, ich habe einen Weg gefunden, die Daten zu normalisieren (ist das der richtige Begriff?).
Seagate-Laufwerke verfügen über ein zusätzliches Attribut, über das Western Digital-Laufwerke nicht verfügen (Hardware-ECC wiederhergestellt). Wenn Sie die Anzahl der Lesefehler von der Anzahl der wiederhergestellten ECC-Fehler subtrahieren, erhalten Sie wahrscheinlich eine 0. Dies scheint der Anzahl der von Western Digitals gemeldeten "Lesefehler" zu entsprechen. Dies bedeutet, dass Western Digital nur Lesefehler meldet, die nicht korrigiert werden können, während Seagate alle Lesefehler zählt und Ihnen mitteilt, wie viele davon behoben werden konnten.
Ich hatte ein Seagate-Laufwerk, bei dem die Anzahl der Lesefehler unter der Anzahl der wiederhergestellten ECC-Dateien lag, und ich bemerkte, dass viele meiner Dateien beschädigt wurden. So bin ich auf meine Hypothese gekommen. Die Millionen von Suchfehlern, die Seagate verursacht, sind mir immer noch ein Rätsel.
Bitte bestätigen oder korrigieren Sie meine Hypothese, wenn Sie zusätzliche Informationen haben.
Hier ist der intelligente Status meines Western Digital-Laufwerks, damit Sie sehen können, wovon ich spreche:
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Bearbeiten: Hier ist das Seagate-Laufwerk, von dem ich gesprochen habe, das Datenbeschädigung verursacht hat. Diese Daten stammen von HDTune.
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
Die Tatsache, dass die wiederhergestellte Hardware-ECC größer ist als die Raw-Read-Fehlerrate, ist meiner Meinung nach nicht intuitiv.
Ich habe festgestellt, dass dies ein "normales" Seagate-Laufwerk ist, bei dem der wiederhergestellte ECC der Raw Read Error Rate entspricht:
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
BEARBEITEN:
Ich möchte klarstellen, dass ich weiß, dass Google SMART im Allgemeinen für nutzlos hält. Ich weiß, dass jeder seine Daten sichern sollte. Ich bin jedoch im Geschäft, Computer anderer Leute zu reparieren. Die meisten Menschen haben keine Backups oder RAID. Für Unternehmen ist es nicht kosteneffektiv, Fehler auf Festplatten zu beheben. Sie führen sie nur auf einem RAID aus, bis sie sterben. In meiner Arbeit finde ich es nützlich, den SMART-Status der Festplatte zu überprüfen. Es dauert ungefähr 30 Sekunden. Wenn ich das Glück habe, dass ein fehlerhaftes Laufwerk einen Hinweis auf einen Fehler wie Scanfehler oder neu zugewiesene Sektoren anzeigt, weiß ich, dass das Laufwerk zum Teufel wird. Wenn es keinen solchen Hinweis gibt, werde ich wahrscheinlich viele Stunden damit verbringen, die Langsamkeit und Datenbeschädigung zu beheben, bis ich schließlich feststelle, dass die Festplatte defekt ist.
Ich versuche nur, diesen Prozess zu verfeinern.
quelle
Antworten:
Es scheint, dass verschiedene Hersteller SMART-Werte für manchmal radikal unterschiedliche Dinge verwenden, wie Sie hier sehen können :
Also, wenn es um Ihre eigentliche Frage geht ...
Ich würde sagen, eine gute Faustregel lautet: Sie können nur erwarten, dass SMART-Einstellungen bei demselben Laufwerkshersteller und möglicherweise sogar bei demselben Laufwerksmodell vergleichbar sind!
Wenn Sie also diese SMART-Zählungen diagnostizieren möchten, denken Sie daran ... Die "Anzahl der Lesefehler-Wiederholungen" eines Herstellers kann etwas völlig anderes bedeuten als die eines anderen Herstellers. Traurig aber wahr. :(
quelle
Okay, zuallererst stimme ich Ihrer Prämisse nicht zu.
In der Tat fanden sie das Gegenteil:
Zweitens sind SMART-Schwellenwerte nicht standardisiert. Die Firmware auf dem Laufwerk selbst kennzeichnet ein Attribut als "Pre-Failure", aber die Rohwerte sind für den Benutzer bedeutungslos. Seagate sagt zum Beispiel :
tl; dr Zusammenfassung:
Rohe SMART-Werte sind fast bedeutungslos, da verschiedene Hersteller sie auf unterschiedliche Weise verwenden und unterschiedliche Schwellenwerte usw. haben. Die Laufwerksfirmware selbst gibt an, wann ein "Pre-Failure" vorliegt sehr zuverlässig.
Mach regelmäßig Backups!
quelle
Ich bin mir nicht ganz sicher, was die Frage ist, die Sie stellen. Sie scheinen die ganze Frage und Antwort in einer zusammengefasst zu haben, aber ...
Haben Sie die Festplattenmetriken mit denen von SeaTools verglichen ?
Es ist das Standard-Hardwarediagnosetool von Seagate und AFAIK das am häufigsten verwendete Festplattendiagnosetool.
Seien Sie nicht überrascht, wenn Sie feststellen, dass die Tools ungünstige Ergebnisse über ihre Konkurrenten melden. Die Tools funktionieren im Allgemeinen mit Festplatten aller Hersteller, aber das bedeutet nicht, dass sie ihre Konkurrenten dabei gut aussehen lassen.
Haben Sie noch nie den Witz gehört? "99,99% aller Statistiken stimmen, außer natürlich diese Statistik."
quelle
In der physischen Realität von Festplatten-Interna weisen Festplatten aller Marken, die größer als 100 MB sind, viele physische Lesefehler auf. Die meisten davon werden von ECC sicher korrigiert, einige (hoffentlich sehr wenige) werden von ECC falsch korrigiert, und der Rest (wenige, aber mehr als die falschen Korrekturen) wird als fehlgeschlagener Lesevorgang an den Computer zurückgemeldet und sollte das Laufwerk auch automatisch an einen anderen Ort bringen schlechter Sektor.
Zusätzlich zur Korrektur von unformatierten Lesefehlern korrigiert ECC auch Lesevorgänge, bei denen der Hardware-Gedanke in Ordnung war, die zurückgegebenen Bits jedoch leicht falsch waren. Daher könnte die korrigierte ECC lauten: "Raw Read fehlgeschlagen, aber durch ECC + behoben. Raw Read war erfolgreich, war aber falsch und wurde durch ECC behoben."
Somit scheinen zwei Interpretationen der Daten möglich zu sein:
A. Nicht von Seagate stammende Laufwerke enthalten keine ECC-korrigierten Lesefehler in der "Anzahl der unformatierten Lesefehler", sondern nur die nicht korrigierbaren Fehler.
B. Seagate betrachtet es als Lesefehler, wenn die ECC einen Fehler mit den Daten feststellt, auch wenn der Low-Level-Schaltkreis dies nicht bemerkt hat, andere nicht.
Die Normalisierung wird sehr unterschiedlich sein, je nachdem, welche Theorie (A oder B) richtig ist.
quelle