Sollte ich mir über einen hohen SMART Hardware_ECC_Recovered-Wert Sorgen machen?

16

Ich habe eine solche Nachricht erhalten in /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Bedeutet das, dass die Festplatte ausfällt und ich sie ersetzen muss? Wo kann ich über die Interpretation der SMART-Testergebnisse lesen?

lexsys
quelle

Antworten:

13

Laut Steve Gibson von Spinrite müssen SMART-Werte über einen längeren Zeitraum hinweg gemessen werden, nicht als sofortige Messwerte. Das heißt, ein Wert von 47 ist nicht unbedingt schlecht, wenn der Wert seit Monaten 47 beträgt. Wenn der Wert jedoch vor einer Stunde bei 42 lag und schnell ansteigt, hat das Laufwerk Schwierigkeiten, auf einen Teil der Daten zuzugreifen, und kann den Sektor möglicherweise bald überhaupt nicht mehr lesen. Abhängig vom Wert der Daten auf diesem Laufwerk möchten Sie diese möglicherweise ersetzen.

Dave Cheney
quelle
+1 für großartige Antworten und zum Hinzufügen. Wenn Sie sich wirklich Sorgen um Lexsys machen, würde ich eine Kopie von Spinrite kaufen und sie ausführen. Sie benötigen Ihr System, um von einer CD booten zu können, aber das Betriebssystem spielt keine Rolle. (Obwohl Sie zum Erstellen der Boot-CD Windows oder einen Windows-Klon benötigen)
Matt
Spinrite enthält ein bootfähiges (freedos) .iso-Image, das Sie mit jedem aktuellen Betriebssystem brennen können
Dave Cheney
grc.com/sr/spinrite.htm wäre ein besserer Ort, um eine Verknüpfung zu
Brad Gilbert
2
Das Beispiel ist falsch! Siehe die Antwort von @ CesarB - für die meisten Werte ist das Erhöhen gut! Wenn es also vor einer Stunde 42 war und jetzt 47 - großartig. Aber nicht umgekehrt.
Volker Siegel
6

Ein hoher Wert für dieses Attribut ist eigentlich ziemlich gut:

Hardware ECC Recovered SMART-Parameter zeigt die Zeit zwischen ECC-korrigierten Fehlern an.

https://kb.acronis.com/content/9131

Robert Klemme
quelle
2
Das, was ich für das zentrale Zitat halte, wurde hinzugefügt.
Robert Klemme
Dies macht jetzt auch dann Sinn, wenn die verknüpfte Ressource verschwindet. Vielen Dank, Robert.
Küken
4

Erstens sind niedrigere Werte für SMART schlechter als höhere (beachten Sie, dass die Schwellenspalte immer niedriger als der aktuelle Wert ist). Eine Wertsteigerung ist also kein Grund zur Sorge. (Diese Regel gilt jedoch nicht für die Rohwerte.)

SMART-Werte neigen dazu, ein wenig zu schwanken (Ihre Werte bewegen sich beispielsweise zwischen 46 und 47, sodass sie bereits durch kleine Änderungen auf den anderen Wert verschoben werden können).

Ihre smartctl -aAusgabe zeigt an, dass der schlechteste Wert 45 ist, daher ist es normal, dass sie leicht darüber oszilliert.

Weitere Informationen finden Sie bei Wikipedia: ATA SMART-Attribute .

CesarB
quelle
3

Beachten Sie, dass selbst die umfangreiche Studie von Google ergab, dass eine große Anzahl von Laufwerksfehlern nicht durch SMART-Fehler vorhergesagt wurde. Es ist möglich, dass das, was Sie sehen, völlig normal ist, aber da jeder Hersteller andere Metriken für die Konvertierung der Rohwerte in die gemeldeten Werte hat, ist es schwer zu sagen, ob auf Ihrem Laufwerk viele Fehler auftreten oder nicht. Eine rohe Zahl, die so groß ist, erscheint mir jedoch seltsam.

Ich würde empfehlen, das gesamte Laufwerk zu lesen (dd oder rsync'ing auf ein neues Laufwerk) und die SMART-Werte zu überprüfen, während es weitergeht. Wenn Sie diese unformatierte Zahl oder die gemeldeten Werte sehen, wird sich viel ändern, und ich werde versuchen, das Laufwerk zu ersetzen.

jasonrm
quelle
Huh. Es wäre ziemlich cool, wenn ZFS SMART-Attribute anhand seiner eigenen Verwendungsmuster verfolgen würde.
i336_
1

Daran ist nichts auszusetzen.

Du kannst immer rennen

smartctl -t long /dev/yourdrive

Fragen Sie dann nach einigen Stunden das Ergebnis ab

smartctl -a /dev/yourdrive

Nur um sicher zu gehen.

cstamas
quelle
1

IIRC-Hardware ECC wiederhergestellt ist eine Fehlerkorrektur beim Lesen von Datenträgern, was für einen Datenträger nicht ungewöhnlich ist, und sie codieren die Daten aus genau diesem Grund mit Fehlerkorrekturmechanismen. Einige Controller unterstützen auch redundante Informationen in Plattensektoren und fügen eine weitere Ebene der Fehlerkorrektur hinzu.

Wie Dave Cheney feststellt, sollten die Zahlen im Laufe der Zeit überwacht werden. Radikale Änderungen in diesen Statistiken deuten auf einen Laufwerksausfall hin. Behalten Sie auch die Liste der gewachsenen Fehler im Auge. Wenn die Liste der gewachsenen Fehler wächst oder sich die SMART-Statistiken erheblich ändern, sollten Sie das Laufwerk prophylaktisch ersetzen.

Betroffen vonTunbridgeWells
quelle
1
lol, prophylaktisch
Dave Cheney