Anhand von SMART- Daten können Sie den Zustand einer Festplatte beurteilen, zumindest ist dies die Idee. Wenn ich zum Beispiel sudo smartctl -H /dev/sdaauf meinem ArchLinux-Laptop laufe , heißt es, dass die Festplatte die Selbsttests bestanden hat und auf dieser Grundlage "gesund" sein sollte.
Meine Frage ist, wie zuverlässig diese Informationen sind oder genauer:
Wenn diese Festplatte laut SMART-Daten fehlerfrei ist, wie hoch ist die Wahrscheinlichkeit, dass die Festplatte trotzdem plötzlich ausfällt ? Dies setzt voraus, dass der Fehler nicht auf ein katastrophales Ereignis zurückzuführen ist, das unmöglich vorhergesagt werden konnte, z. B. dass der Laptop auf den Boden fällt und die Laufwerksköpfe auf die Festplatte treffen.
Wenn die SMART-Daten nicht besagen, dass die Festplatte in gutem Zustand ist, wie hoch ist die Wahrscheinlichkeit, dass die Festplatte innerhalb eines bestimmten Zeitraums ausfällt? Ist es möglich, dass es falsch positive Ergebnisse gibt und wie häufig sind diese?
Natürlich behalte ich Backups, egal was passiert. Ich bin meistens neugierig.
Nach meiner Erfahrung (20 Jahre im Betrieb von Servern, muss ungefähr 5.000 Festplatten in allen Servern verarbeitet haben, mit denen ich mich befasst habe) ist SMART nützlich, aber kein Allheilmittel.
Wenn Sie SMART-Fehler erhalten, ersetzen Sie die Festplatte so schnell wie möglich. Die Chancen stehen sehr hoch, dass die Festplatte mit 4-8 Wochen ernsthafte Probleme haben wird. (Die in diesem Zusammenhang häufig erwähnte Google-Studie korreliert sehr gut mit meiner persönlichen Erfahrung.)
Normalerweise haben Sie eine oder zwei Wochen Zeit, bevor die Festplatte wirklich problematisch wird.
Wenn Sie überhaupt keine SMART-Fehler erhalten, kann die Festplatte trotzdem ohne Vorwarnung ausfallen, obwohl dies auf Servern recht selten vorkommt. Ich sehe 3 oder 4 solcher Fälle pro Jahr. Während wir Laufwerke wegen SMART-Fehlern bei ca. 25 / Monat austauschen.
Dies muss möglicherweise dazu führen, dass Serverfestplatten normalerweise Teil eines RAID-Arrays sind und auf der gesamten Festplatte ein kontinuierliches Lese- / Schreibmuster aufweisen. Dadurch wird jeder Teil der Festplatte regelmäßig "trainiert" (und überprüft).
Die größte Wahrscheinlichkeit, dass eine Festplatte ausfällt (ohne vorherige Warnung), besteht beim Start, wenn ein Server für einige Zeit ausgeschaltet wurde, nachdem er monatelang / Jahre ununterbrochen ausgeführt wurde.
In Consumer-Geräten (Nicht-Server-, Laptop- / Desktop-Laufwerke) habe ich viele Festplatten mit Lesefehlern gesehen, die irgendwie nicht in SMART-Daten gelandet sind, obwohl Windows diese Fehler im Ereignisprotokoll protokolliert hat. (SMART hat sie erst nach einer vollständigen chkdsk von Windows protokolliert.)
Dies lässt mich glauben, dass bei vielen Consumer-Laufwerken die SMART-Schwellenwerte recht niedrig sind. Dies könnte (große IF) beabsichtigt sein, die RMA-Zahlen in diesem Cut-Throat-Geschäft niedrig zu halten.
Viele Verbraucher werden den gelegentlichen schlechten Block ohnehin erst bemerken, wenn es zu spät ist. (Wie viele Verbraucher wissen, wo sich das Ereignisprotokoll befindet? Dies ist der einzige Ort, an dem Festplattenfehler in Windows angezeigt werden.)
Wenn nach meiner Erfahrung auf einer Consumer-Festplatte Probleme auftreten (SMART oder auf andere Weise), kopieren Sie Ihre Daten und ersetzen Sie sie sofort. Zu dem Zeitpunkt, an dem diese Fehler auftreten, ist es bereits vorbei.
Dies wird durch die Google-Studie bestätigt, auf die BeowulfNode42 verweist. Viele Leute haben das falsch verstanden, aber es läuft auf "Wenn SMART sagt, dass es schlecht wird, wird es schlecht. Wenn SMART sagt, dass es nicht schlecht wird, wird es möglicherweise immer noch schlecht."
MadHatter
@ MadHatter Schöne Zusammenfassung :-)
Tonny
2
Es ist ziemlich zuverlässig, deckt jedoch nicht alle Arten von Fehlermodi ab, die ein Laufwerk haben kann.
Die Verwendung einer RAID-Form schützt Sie in einer größeren Anzahl von Szenarien.
Ich würde sagen, dass auf meinen Servern nur 20% meiner Festplattenfehler auf SMART-Daten zurückzuführen sind.
Die Art und Weise, wie HP Server diese Informationen präsentieren, lässt den Eindruck entstehen, dass verschiedene Metriken verwendet werden, um den Zustand der Festplatte und den Fehlerstatus zu bestimmen.
Unsere Ergebnisse bestätigen die Ergebnisse früherer kleinerer Populationsstudien, die darauf hindeuten, dass einige der SMART-Parameter gut mit Robabilitäten bei höheren Fehlern korrelieren. Wir stellen beispielsweise fest, dass Laufwerke nach ihrem ersten Scanfehler 39-mal häufiger innerhalb von 60 Tagen ausfallen als Laufwerke ohne solche Fehler. Erste Fehler bei Neuzuweisungen, bei der Neuzuweisung von Flächen und bei der Anzahl der Proben korrelieren ebenfalls stark mit höheren Ausfallwahrscheinlichkeiten. Trotz dieser starken Korrelationen stellen wir fest, dass Fehlervorhersagemodelle, die allein auf SMART-Parametern basieren, wahrscheinlich in ihrer Vorhersagegenauigkeit stark eingeschränkt sind, da ein großer Teil unserer ausgefallenen Laufwerke überhaupt keine SMART-Fehlersignale gezeigt hat.
Es wurden andere Studien durchgeführt, die ebenfalls zu dem Schluss kommen, dass die SMART-Daten nützlich sind, jedoch Einschränkungen bei der Vorhersage von Laufwerksausfällen aufweisen.
Meine persönliche Erfahrung ist, dass der allgemeine Smart-Status auf viel zu viele Fehler wartet, bevor er das Laufwerk als fehlerhaft kennzeichnet. Die einzelnen Parameter sind nützlich und einige warnen dringend vor einem immanenten Fehler beim ersten Fehler, aber nicht alle sind ein schlüssiger Beweis dafür, dass ein Laufwerk schlecht ist oder bald schlecht wird. Lesen Sie http://en.wikipedia.org/wiki/SMART . für eine Beschreibung der häufigsten Attribute.
Wenn der SMART-Gesamtstatus jedoch schlecht ist, ist die Festplatte definitiv schlecht.
Wenn ich in einem RAID mit redundanten Festplatten zwei Konsistenzprüfungen und Korrekturen hintereinander durchführe und beim zweiten Durchgang Fehler finde, werde ich diese Festplatte nicht mehr verwenden und versuchen, die Garantie zu ersetzen. Meine Argumentation ist, dass der 1. Durchgang alle Inkonsistenzen findet und behebt und der 2. Durchgang sauber zurückkommen sollte. Wenn dies nicht der Fall ist, kann die Festplatte selbst für diese wenigen Stunden keine Daten speichern.
Das Überwachen von SMART-Informationen ist ein guter Weg, um festzustellen, ob eine Festplatte "fehlerhaft" ist, aber ich würde sie nicht verwenden, um sicherzustellen, dass eine Festplatte fehlerfrei ist (abgesehen von der Wortart der Berichte). Ein Problem mit SMART besteht darin, dass nur angezeigt wird, wenn auf einer Festplatte in der Vergangenheit ein Problem aufgetreten ist. Auf diese Weise können Sie feststellen, ob eine Festplatte an Ihnen sterben wird, und die Festplatte ersetzen, wenn ein Schwellenwert erreicht wird. Festplatten können ohne vorherige Probleme katastrophale mechanische Ausfälle aufweisen. Es gibt viele Fälle, in denen eine Festplatte ausfällt, obwohl die SMART-Tests nie Probleme zeigten (oder sie als bestanden markierten). Daher verwende ich SMART-Tests immer als Einblick in den Verlauf der Festplatte, um einen vorbeugenden Festplattenaustausch durchzuführen, bevor ein Problem auftritt, und nicht, um festzustellen, ob eine Festplatte in Ordnung ist.
Fragen Sie auch, wie "zuverlässig" der SMART-Test ist: Wenn Sie den Gesamtgesundheitswert verwenden, erhalten Sie einen Durchschnitt, der nicht so "zuverlässig" ist, wie wenn Sie die einzelnen Komponenten des Tests manuell betrachten und selbst entscheiden, welche Maßnahmen erforderlich sind genommen werden. Zum Beispiel haben viele Festplatten einen fehlerfreien SMART-Test zurückgegeben, aber bei weiterer Überprüfung kann festgestellt werden, dass sie beim SMART-Test übermäßige Wärmeauslöser hatten, nicht genug, um sie als schlecht zu markieren, aber genügend Informationen, um mir Folgendes mitzuteilen: a) Die Festplatte hat in der Vergangenheit heiß geworden b) Wenn sich die Festplatte noch im selben System befindet, sollte ich vielleicht etwas dagegen tun.
Der springende Punkt ist, dass Sie sich immer dann, wenn Sie sich auf einen automatisierten / gemittelten Bericht verlassen, um "zuverlässige" Informationen zu erhalten, die Möglichkeit eröffnen, schlechte Informationen zu erhalten.
Es ist ziemlich zuverlässig, deckt jedoch nicht alle Arten von Fehlermodi ab, die ein Laufwerk haben kann.
Die Verwendung einer RAID-Form schützt Sie in einer größeren Anzahl von Szenarien.
Ich würde sagen, dass auf meinen Servern nur 20% meiner Festplattenfehler auf SMART-Daten zurückzuführen sind.
Die Art und Weise, wie HP Server diese Informationen präsentieren, lässt den Eindruck entstehen, dass verschiedene Metriken verwendet werden, um den Zustand der Festplatte und den Fehlerstatus zu bestimmen.
quelle
Es gibt einen Artikel über eine Studie über die Festplatten erfolgt bei Google verwendet , die aus verfügbar ist http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/disk_failures.pdf , die im Wesentlichen dem Schluss , dass
Es wurden andere Studien durchgeführt, die ebenfalls zu dem Schluss kommen, dass die SMART-Daten nützlich sind, jedoch Einschränkungen bei der Vorhersage von Laufwerksausfällen aufweisen.
Meine persönliche Erfahrung ist, dass der allgemeine Smart-Status auf viel zu viele Fehler wartet, bevor er das Laufwerk als fehlerhaft kennzeichnet. Die einzelnen Parameter sind nützlich und einige warnen dringend vor einem immanenten Fehler beim ersten Fehler, aber nicht alle sind ein schlüssiger Beweis dafür, dass ein Laufwerk schlecht ist oder bald schlecht wird. Lesen Sie http://en.wikipedia.org/wiki/SMART . für eine Beschreibung der häufigsten Attribute.
Wenn der SMART-Gesamtstatus jedoch schlecht ist, ist die Festplatte definitiv schlecht.
Wenn ich in einem RAID mit redundanten Festplatten zwei Konsistenzprüfungen und Korrekturen hintereinander durchführe und beim zweiten Durchgang Fehler finde, werde ich diese Festplatte nicht mehr verwenden und versuchen, die Garantie zu ersetzen. Meine Argumentation ist, dass der 1. Durchgang alle Inkonsistenzen findet und behebt und der 2. Durchgang sauber zurückkommen sollte. Wenn dies nicht der Fall ist, kann die Festplatte selbst für diese wenigen Stunden keine Daten speichern.
quelle
Das Überwachen von SMART-Informationen ist ein guter Weg, um festzustellen, ob eine Festplatte "fehlerhaft" ist, aber ich würde sie nicht verwenden, um sicherzustellen, dass eine Festplatte fehlerfrei ist (abgesehen von der Wortart der Berichte). Ein Problem mit SMART besteht darin, dass nur angezeigt wird, wenn auf einer Festplatte in der Vergangenheit ein Problem aufgetreten ist. Auf diese Weise können Sie feststellen, ob eine Festplatte an Ihnen sterben wird, und die Festplatte ersetzen, wenn ein Schwellenwert erreicht wird. Festplatten können ohne vorherige Probleme katastrophale mechanische Ausfälle aufweisen. Es gibt viele Fälle, in denen eine Festplatte ausfällt, obwohl die SMART-Tests nie Probleme zeigten (oder sie als bestanden markierten). Daher verwende ich SMART-Tests immer als Einblick in den Verlauf der Festplatte, um einen vorbeugenden Festplattenaustausch durchzuführen, bevor ein Problem auftritt, und nicht, um festzustellen, ob eine Festplatte in Ordnung ist.
Fragen Sie auch, wie "zuverlässig" der SMART-Test ist: Wenn Sie den Gesamtgesundheitswert verwenden, erhalten Sie einen Durchschnitt, der nicht so "zuverlässig" ist, wie wenn Sie die einzelnen Komponenten des Tests manuell betrachten und selbst entscheiden, welche Maßnahmen erforderlich sind genommen werden. Zum Beispiel haben viele Festplatten einen fehlerfreien SMART-Test zurückgegeben, aber bei weiterer Überprüfung kann festgestellt werden, dass sie beim SMART-Test übermäßige Wärmeauslöser hatten, nicht genug, um sie als schlecht zu markieren, aber genügend Informationen, um mir Folgendes mitzuteilen: a) Die Festplatte hat in der Vergangenheit heiß geworden b) Wenn sich die Festplatte noch im selben System befindet, sollte ich vielleicht etwas dagegen tun.
Der springende Punkt ist, dass Sie sich immer dann, wenn Sie sich auf einen automatisierten / gemittelten Bericht verlassen, um "zuverlässige" Informationen zu erhalten, die Möglichkeit eröffnen, schlechte Informationen zu erhalten.
quelle