Durchschnittliche Lebensdauer von SATA-Laufwerken?

0

Was ist die durchschnittliche Lebensdauer einer SATA-Festplatte?

Fast alle Daten, die ich finden kann, geben Fehlerraten für die ersten 0-5 Jahre an, aber keine scheint tatsächlich das Ende der Lebensdauer der Laufwerke zu finden.

Die Berichte, Diagramme und Studien von Google, Backblaze und ähnlichen Anbietern erzählen nur einen Teil der Geschichte, da sie sich auf die ersten fünf Jahre +/- konzentrieren.

Die Hypothese, dass 50% der Laufwerke innerhalb von 8 Jahren sterben, lässt nicht darauf schließen, dass die anderen 50% innerhalb von 16 Jahren sterben. Gibt es ein Diagramm, das 100% einer Reihe von Laufwerken bis zum Tod zeigt und die Ergebnisse liefert? Oder etwas, das gleichwertige Informationen liefern würde?

Unter der Annahme einer hohen Arbeitsbelastung der Verbraucher für Verbraucherlaufwerke in einem typischen klimatisierten Heim / Büro, wie hoch ist der weltweite Durchschnitt der Lebensdauer von Festplattenlaufwerken? Wiederum nicht Ausfallraten bei einer (kurzen) festgelegten Lebensdauer.

Die tatsächlichen Ergebnisse für uns sind, dass wir in 10 Jahren weniger als 10% Laufwerksausfälle hatten und nie eng beieinander liegen. Daher bin ich mit der Verwendung veralteter Laufwerke ziemlich vertraut, möchte jedoch informiert werden, wo immer dies möglich ist. Unser aktueller Satz von Laufwerken reicht von 0 bis 8 (in Betrieb) Jahren im Durchschnitt von ungefähr 3 bis 4 Jahren, der letzte Ausfall war ein 5-jähriger in Betrieb. Weiterhin haben wir ein 40 GB und 80 GB Laufwerk, die jeweils weit über 10 Jahre (Herstellungsdatum) alt sind und hier und da immer noch zuverlässig eingesetzt werden. Genügend Daten, um zu sagen, dass SATA-Festplatten zuverlässig länger als 5 Jahre halten, aber nicht genug, um einen Trend darüber aufzuzeigen, wie lange sie dauern.

Hintergrund:

Wir sind auf ein OBR10-Setup für ein kleines Unternehmen mit gealterten SATA-Laufwerken von 4 bis 6 Jahren umgezogen und ich versuche herauszufinden, wie umsichtig es wäre, auf ein MD RAID 10 mit 3 Kopien im Vergleich zu 2 Kopien umzusteigen.

Mit täglichen Datenspiegeln und vollständigen Sicherungen wäre es nicht nachteilig, einen vollständigen Verlust des primären Arrays zu haben und ein Backup erneut erstellen und wiederherstellen zu müssen, aber ich würde gerne ein solches Szenario vermeiden. Allerdings kann ich nicht scheinen , Daten zu finden , die weit über das Alter unserer aktuellen Laufwerke aussehen . und es gibt keine Anzeichen dafür, dass sie in Scharen an der 5 +/- Jahresmarke versagen, an der die Daten zu stoppen scheinen.

Damon
quelle
3
Sie neigen dazu, durch den Gebrauch zu scheitern, nicht durch das Alter. Es hängt also wirklich von der Arbeitsbelastung ab. Die besten Daten, die ich mir vorstellen kann, sind die, die von backblaze bereitgestellt werden. backblaze.com/blog/hard-drive-failure-rates-q2-2016 - Niemand sonst, den ich kenne, veröffentlicht etwas in der Nähe davon.
djsmiley2k
2
@ djsmiley2k Annualisierte Ausfallraten für Laufwerke von 0 bis 5 Jahren haben nichts mit der durchschnittlichen Lebensdauer der Laufwerke zu tun und nichts mit Ausfallraten nach 5 Jahren. Ich würde zustimmen, dass die Lebensdauer ohne entsprechende jährliche Ausfallraten für eine bestimmte Gruppe ebenfalls problematisch ist, um Entscheidungen zu treffen, aber wo sind die Daten für 5-10 Jahre +? Es muss viele Millionen Laufwerke geben, wenn nicht Milliarden älter als 5 Jahre, die noch zuverlässig laufen. Ich gehe davon aus, dass jemand irgendwo einen Einblick hat.
Damon
Wenn Sie ein 10 Jahre altes Laufwerk haben, läuft wahrscheinlich auch SATA 1? Irgendwann wird es schwieriger, Ersatzlaufwerke sozusagen „vor Ort“ zu beschaffen und die Wiederherstellung von Daten von diesen Laufwerken (falls erforderlich) teurer.
djsmiley2k
@ djsmiley2k Ich bin mir nicht sicher, ob ich damit einverstanden bin. SATA I arbeitet immer noch an neuer Hardware (SATA III) und sie haben sich beim häufigen Umschalten verlangsamt. Ganz zu schweigen davon, dass das Ersetzen eines alten ausgefallenen Laufwerks durch ein neues Laufwerk an der neuen SATA-Schnittstelle und das Hinzufügen zum Array kein Problem darstellen. Außerdem müssen wir kein Laufwerk desselben Jahrgangs finden, um ein ausgefallenes Laufwerk zu mildern, also kein Problem. Bei Spiegeln und Backups ist keine Datenwiederherstellung erforderlich.
Damon
Dann stellt sich die Frage, warum es Sie interessiert, wenn die Festplatte ausfällt.
djsmiley2k

Antworten:

8

TLDR: Es ist unmöglich, eine Zahl für die durchschnittliche Lebensdauer der Festplatte anzugeben, da diese zu komplex ist.

Es gibt kein reales Maß für die durchschnittliche Lebensdauer, da es stark von einer ganzen Reihe verschiedener Faktoren abhängt. Es ist ein bisschen wie zu fragen, wie lang ein Stück Schnur ist . Für ein bestimmtes Laufwerk enthält ein Datenblatt möglicherweise einige relevante Informationen, obwohl dies immer noch ein grober Hinweis ist, der möglicherweise mit einer Prise Salz und Teeblättern interpretiert werden muss.

Zunächst einmal ist ein Ausfall eines einzelnen Laufwerks, wenn Sie ein Laufwerk haben, eine Tragödie, da ein Laufwerk eines überfallenen Arrays, das Teil eines Array-Clusters ist, eine Statistik ist. Man kann sich ein bestimmtes Laufwerk nicht ansehen und sagen, dass dies mit Sicherheit ein Jahrzehnt dauern wird ". Man kann sagen "Dieses Laufwerk sollte 5 Jahre dauern" und planen, es in geplanter Weise zu ersetzen.

Ich möchte auch darauf hinweisen, dass Backblaze und Google sowie die meisten Branchenunternehmen mit durchschnittlichen Ausfallraten und Zuverlässigkeit über die Lebensdauer eines Laufwerks unter bestimmten Bedingungen befasst sind . Sie möchten eine Lastwagenladung von Laufwerken kaufen, sie so billig und effizient wie möglich betreiben und sich erst dann wirklich Sorgen um sie machen, wenn der Austausch geplant ist. Es ist sogar besser zu wissen, dass "dies die Anzeichen sind, die ein Laufwerk zum Erliegen bringen wird", als dass sie zum Erlöschen gebracht werden. Außerdem ist es besser, die Kosten für die Kühlung eines Standorts mit den Hardwarekosten für das Braten von gerösteten Festplatten abzugleichen.

In der Praxis handelt es sich bei Festplatten um Standardgeräte - und in der Regel behalten die meisten Orte die Zuverlässigkeit nicht im Auge. Erst vor kurzem (relativ!) Haben große Unternehmen damit begonnen, gigantische Flotten dieser Laufwerke bereitzustellen und ihre Zuverlässigkeitsinformationen auszutauschen.

Es gibt einen guten Grund, warum der Schwerpunkt auf prädiktiver Fehleranalyse und Auswahlmodellen für Zuverlässigkeit und Langzeitzuverlässigkeit liegt . Einfach alle Hardware-Ausfälle und es ist „billiger“ in Bezug auf Arbeitsleistung, Ausfallzeiten und in einigen Fällen sogar das Ersetzen von Laufwerken, bevor sie dazu neigen, an einem mechanischen Ausfall zu sterben.

Spezifische Laufwerke können Probleme haben - die seagate 7200.11 für zufällig sterben wegen schlechten Firmware beispielsweise bekannt und wurde später festgelegt. Andere Laufwerksmarken und -modelle weisen möglicherweise ein lächerliches Maß an Zuverlässigkeit auf. Ich hatte buchstäblich noch nie einen Ausfall eines HGST-Desktop-Laufwerks.

Sie könnten die mittlere Ausfallzeit für das Modell nachschlagen - was mit der durchschnittlichen Lebensdauer der Festplatte korrelieren sollte, aber die moderne Literatur scheint es als eine Last von Pferdehockey zu betrachten. Seagate hat sowieso auf AFR umgestellt .

Als ich das nachgeschlagen habe, bin ich auf diese großartigen Folien von jemandem von WD gestoßen. Ich bin nicht sicher, ob die zugehörige Vorlesung online ist.

Es gibt ein hervorragendes Anzeichen dafür, welche Zuverlässigkeit / Lebensdauer von einem großen Festplattenhersteller mindestens erwartet wird.

Vermeiden Sie eine nicht zu bewältigende Katastrophe in der Mitte (oder darüber hinaus) des Garantiezeitraums eines Produkts

Die typische Garantie für ein Enterprise-Gerät und ältere Consumer-Festplatten beträgt 5 Jahre. Für neuere Laufwerke sind es 3 Jahre. Ihr Festplattenhersteller geht also davon aus, dass seine Festplatten erst nach 5 Jahren ausfallen werden, da dies Geld kostet. Als solches gehen sie davon aus, dass Sie das Risiko entweder übernehmen oder es nach Ablauf der Zeit ersetzen würden.

Der Rest der Präsentation ist eine gute Lektüre, aber der größte Teil der Physik wird übersprungen.

Dies ist eine einfache kleine Grafik, die alle Elemente zeigt, die für die Zuverlässigkeit der Festplatte von Bedeutung sind

Bildbeschreibung hier eingeben

Und während die klassische Wannenrundung das ist, worüber die Leute mit Zuverlässigkeit des Laufwerks sprechen , spielen neben all diesen Design- und Umgebungsfaktoren auch Dinge wie der tatsächliche Arbeitszyklus, wenn Schreibvorgänge auf ein Laufwerk erfolgen, und die Temperatur eine Rolle . Es ist einfach zu komplex, um es zu erraten.

Geselle Geek
quelle
Dies ist auf jeden Fall sinnvoll, wenn für alle Variablen kein reales Vorhersagemodell vorhanden ist. Ich glaube, ich hatte das Konzept, dass bei der Bereitstellung von Milliarden von Laufwerken jemand sie bis zum Tod genutzt und auf einer grundlegenden Ebene die tatsächlichen Ergebnisse dokumentiert haben könnte. Obwohl ich sehen konnte, dass die Ausfallkurve für Hitachi-Laufwerke gegenüber einer Marke wie Seagate-Laufwerken nach 15 Jahren drastisch anders ausfällt, bedeutet dies, dass Verallgemeinerungen zusammenbrechen würden, wenn die Daten nicht ausreichend vielfältig wären. Vielen Dank für Ihren Einblick!
Damon
Ich denke, wir werden weitermachen, keine Neuigkeiten sind gute Neuigkeiten. Ich habe nach Daten oder Informationen gesucht, die besagen, dass Laufwerke nach 5 Jahren ausfallen oder nicht viel ausfallen, und habe keine Antwort speziell auf den Punkt erhalten, der wahrscheinlich bedeutet, dass es sich nicht um eine Klippe von Ausfällen nach 8 Jahren oder so handelt. Wir haben einen kleinen Datensatz für die Laufwerke, die wir verwendet haben, und ich denke, ich werde damit beginnen, die Laufwerksmodelle, das Alter und die Betriebsjahre zu verfolgen und zu prüfen, ob wir über einen längeren Zeitraum hinweg Trends feststellen können. Wir kaufen Hitachi-Laufwerke speziell aufgrund der Daten, die wir haben, obwohl sich mit HGST von WD die Trends dort ändern werden.
Damon