Mean Time to Failure (MTTF): Wenn Festplattenhersteller dies veröffentlichen, wie sollten Sie ihre Zahlen interpretieren?

10

Die mittlere Ausfallzeit (MTTF) wird normalerweise in Stunden angegeben. Nach einigen Berechnungen sollte eine Festplatte erst nach einer guten Anzahl von Jahren ausfallen .

Es scheint, dass Festplatten häufiger repariert werden müssen. Weiß jemand warum das so ist?

Ich dachte mir, dass diese Metrik etwas faul ist. Interpretiere ich hier etwas falsch?

hard-drive hardware-failure statistics hard-drive-failure Kaitlyn Mcmordie
quelle

14

Zuerst:

MTTF = Mittlere Ausfallzeit
MTTR = Mittlere Reparaturzeit
MTBF = Mittlere Zeit zwischen Ausfällen = MTTF + MTTR

MTBF ist oft mehr oder weniger gleich MTTF, da die Reparatur eine Stunde dauern kann und MTTF Zehntausende von Stunden betragen kann. Aber auch MTBF ist oft nicht anwendbar, da defekte Produkte nicht repariert, sondern einfach ersetzt werden, weil die Reparaturkosten höher sind als der Austausch.

Die MTTF-Berechnung ist eine komplexe statistische Methode, bei der die Wahrscheinlichkeit berechnet wird, dass jedes einzelne Teil versagt. Und es ist keine lineare Sache, wie die Leute manchmal annehmen. Wenn Sie eine MTTF von 1000 000 Stunden haben, bedeutet dies nicht, dass bei 1000 Geräten nach 1000 Stunden ein Fehler auftritt oder dass bei 1000 000 Geräten nach 1 Stunde ein Fehler auftritt.
Viele elektronische Geräte folgen der "Badewannenkurve" ,

Geben Sie hier die Bildbeschreibung ein

Wo es früh viele Ausfälle gibt, dann eine lange Zeit mit kaum Ausfällen, und gegen Ende des Lebens steigt die Anzahl der Ausfälle wieder an. In Festplatten gibt es auch einige mechanische Teile, die eine linearere Ausfallkurve aufweisen. Dies steigt langsam ab Tag 1 an.

Wenn der Hersteller beispielsweise 1000 000 Stunden MTTF (meistens POH oder Einschaltstunden) angibt, bedeutet dies, dass das Laufwerk im Durchschnitt > 100 Jahre halten sollte. Einige Laufwerke halten länger, andere fallen früher aus. Trotz der 1000 000 Stunden ist es durchaus möglich, dass nach 1000 Stunden ein Fehler auftritt. Ich hatte einmal eine Fahrt, die innerhalb einer Woche ausfiel, und dann muss man an die Badewannenkurve zurückdenken. Das Ersatzlaufwerk dreht sich seit> 50.000 Stunden glücklich.

stevenvh
quelle

3

Einige erwähnenswerte Dinge könnten die Tatsache sein, dass frühe Ausfälle oft als Einbrennen bezeichnet werden. Hersteller mit viel geringeren frühen Ausfällen führen Geräte häufig durch ihre Einbrennphase. Auch diese reine Elektronik weist keine Abnutzungsperiode und nur ein Einbrennen auf.

Kortuk

1

Beachten Sie, dass Sie bei der Berechnung der MTTF (oder MTBF) normalerweise nur eine einzige Verteilung verwenden, um die Fehler zu modellieren. Daher basiert die Berechnung entweder auf der Verteilung "Säuglingssterblichkeit", "normales Leben" oder "Verschleiß am Lebensende". Das einzige, was diese drei Verteilungen unterscheidet, ist der Weibull-Formparameter, wenn Sie Weibull als Grundverteilung verwenden. Der einzige Fall, in dem die Fehler aus der Verteilung der "normalen Lebensdauer" hervorgehen würden, ist, wenn die Zeit keinen Einfluss auf die Ausfallrate hätte und daher die Verteilung exponentiell wäre.

2

MTTF ist in erster Linie nützlich, um anzuzeigen, welche Art von Leben Sie von dem Gerät oder Widget erwarten sollten. Es kann aus offensichtlichen Gründen keine genaue Vorhersage des Ausfalldatums des Geräts sein. Es handelt sich nur um eine Schätzung, die auf der statistischen Analyse der verfügbaren Daten basiert und nur als solche betrachtet werden sollte. Nützlich für die Budgetierung (wie lange sollte ich die Kosten hier amortisieren oder abschreiben) und die Planung (wie lange können wir mit der Leistung des Widgets rechnen, bevor wir das nächste erhalten müssen).

music2myear

Was genau ist ein "Festplattenfehler"?

Kaitlyn Mcmordie

2

@ Kaitlyn - Ich denke, Sie beziehen sich auf schlechte Sektoren. Ich würde sagen, ein Festplattenfehler liegt vor, wenn Sie nicht mehr vom Laufwerk lesen oder darauf schreiben können. Normalerweise ein mechanischer Fehler, wie ein Kopfcrash. Dies geschieht normalerweise, wenn Sie noch viele gute Sektoren übrig haben.

Stevenvh

4

Wenn ein Gerät eine MTBF von 1.000.000 Stunden hat, bedeutet dies nicht, dass mit einem Gerät eine Lebensdauer von 1.000.000 Stunden erwartet werden kann. Es bedeutet vielmehr ungefähr, dass 1.000.000 Geräte, die innerhalb ihrer Nennlebensdauer liegen, jeweils eine Stunde lang oder 100.000 Stück zehn Stunden lang (aber immer noch innerhalb der Nennlebensdauer) oder 60.000.000 eine Minute lang usw. betrieben werden. Es wird ungefähr einen Fehler im Los geben. Beachten Sie, dass die Nennlebensdauer vollständig orthogonal zu MTBF ist. Betrachten Sie die folgenden zwei Arten von Widgets:

Unabhängig vom Alter besteht für jedes Widget eine Wahrscheinlichkeit von 0,1%, dass es stündlich fehlschlägt.
Von jeder Milliarde Widgets werden alle bis auf eines genau 61 Minuten lang arbeiten und dann sterben. dieser wird nach 30 Minuten sterben; Die Widgets haben eine festgelegte Lebensdauer von 60 Minuten.

Der erste Widget-Typ hätte eine durchschnittliche Lebensdauer von ungefähr 1.000 Stunden und eine MTBF von ungefähr 1.000 Stunden. Der zweite hätte eine durchschnittliche Lebensdauer von 61 Minuten, aber eine MTBF von 1.000.000.000 Stunden innerhalb seiner Lebensdauer. Während es seltsam erscheinen mag zu sagen, dass das zweite Gerät eine MTBF hat, die fast milliardenfach so lang ist wie die erwartete Lebensdauer, ist die MTBF kaum eine bedeutungslose Zahl.

Angenommen, man führt ein Experiment durch, bei dem 1.000.000 Geräte eine Stunde lang einwandfrei funktionieren müssen. Danach werden sie alle verschrottet. Wenn ein Gerät ausfällt, wird das gesamte Experiment ruiniert. Was nützlicher wäre - ein Gerät, das durchschnittlich 1.000 Stunden hält, aber eine MTBF von nur 1.000 Stunden hat, oder ein Gerät, das höchstens 61 Minuten hält, aber nur eine von einer Milliarde Chancen hat, dies nicht zu tun diese Marke treffen?

Superkatze
quelle

Unterm Strich sollten wir also die MTBF von 10 ^ 6 Stunden nicht als "mittlere Lebensdauer" einer bestimmten Festplatte betrachten, sondern als Maß für die Lebensdauer mehrerer Festplatten?

Kaitlyn Mcmordie

@ Kaitlyn Mcmordie: Der Begriff "Lebensdauer" ist nicht wirklich anwendbar; Tod bedeutet weder Versagen noch umgekehrt. Der Hersteller eines Speichergeräts kann Verfahren festlegen, die befolgt werden sollten, um Datenverlust zu vermeiden. Zu diesen Verfahren kann das Verschieben aller Daten von einem beliebigen Gerät gehören, das einem neuen Gerät die Meldung "Fehler unmittelbar bevorsteht" (nach dem Kopieren der Daten wird das alte Gerät als "tot" betrachtet). Wenn durch ein solches Ereignis kein Datenverlust auftritt, ist dies kein Fehler. Datenverlust, der von jedem Gerät aus auftritt, auch von einem scheinbar gesunden, ist ein Fehler. Nichts mit dem Leben zu tun.

Supercat

2

Hinzu kommt die Antwort von stevenvh: Bekannte Festplattenhersteller und alle Hersteller elektronischer Komponenten brennen alle neue Geräte ein. Auf Festplatten gibt es nicht nur eine Gesamt-MTBF und MTTF, sondern auch individuelle Fehlerstatistiken für die Festplattenblöcke. Mit anderen Worten: Einige Teile des sich drehenden "Plattentellers" auf der Festplatte können fehlschlagen, während die Mehrheit noch in Ordnung liest / schreibt. Die sogenannten "fehlerhaften Sektoren" können erkannt und dann von der Firmware im Laufwerk zugeordnet werden.

Alle Antriebe enthalten heute zusätzliche Sektoren in Reserve, die dann anstelle der defekten Sektoren verwendet werden können. Dies ist lediglich eine Vorsichtsmaßnahme des Herstellers: Wenn sie dies nicht tun würden, könnten sie die Festplatte nicht mit der proklamierten Kapazität verkaufen. Wenn sie zusätzliche x% der versteckten Sektoren als Reserve einbauen, erhöhen sie die Kosten um einige <x%, erzielen jedoch eine viel höhere Gesamtproduktionsausbeute.

Die Festplatten zählen heute fehlerhafte Sektoren, die auch mit geeigneter Software ausgelesen werden können. Dieser und andere Festplattenzustandsparameter (z. B. Temperatur) werden als SMART- Werte bezeichnet.

Sobald der Hersteller den Einbrenntest des Laufwerks durchgeführt hat und einige Sektoren fast fehlerhaft sind und von der internen Firmware des Laufwerks neu zugeordnet wurden, wird der SMART-Parameter "Bad Sector Count" auf 0 gesetzt Laufwerk wird an Kunden geliefert.

Normalerweise sieht der Kunde nach dem Einbrennvorgang den bereits erwähnten Beginn der Badewannenkurve nicht mehr. Wir haben Glück und sehen nur eine Zunahme der Ausfallwahrscheinlichkeit im Laufe der Zeit.

Wenn Sie sich also die vom Hersteller angegebene MTTF ansehen, können Sie für eine mögliche Fehlermodellierung den Beginn der Badewannenkurve ignorieren.

cfi
quelle

Vielen Dank. Übrigens, haben Sie eine Idee, was der Begriff "Serverfehler" bedeuten soll?

Kaitlyn Mcmordie

Die offensichtliche Bedeutung ist ein Fehler, der bei einem Computer auftritt, der Dienste für andere bereitstellt. Und ich glaube, das ist die Zeit, in der du Fragen auf serverfault.com stellen sollst ;-) Konnte nichts darüber in den FAQ finden

siehe

-2

Sie sollten dies als Marketing interpretieren. Sie kennen die genaue MTBF (mittlere Zeit zwischen Ausfällen) nicht genau, verwenden also verschiedene Tricks, um sie abzuschätzen, und sie zeigen höhere Zahlen für "Enterprise" -Laufwerke an, um ihre Kosten zu rechtfertigen.

In der Realität ist es für Festplattenhersteller rentabel, wenn ihre Festplatten kurz nach Ablauf der Garantie ausfallen.

Als Verschwörungstheorie glaube ich, dass ein Massenausfall von Seagate 7200.11 ein Fehler bei der Implementierung von "Programmed Death" war, der dazu führte, dass Festplatten ausfielen, bevor die Garantie abgelaufen war. Daher mussten sie dies durch ein Firmware-Update "beheben".

BarsMonster
quelle

Ich kaufe dieses Verschwörungsargument nicht.

1

@ Federico Russo: Warum? Sie denken, es ist nur ein gewöhnlicher Entwicklerfehler, der dazu führt, dass Festplatten nach einer bestimmten Anzahl von Stunden in einem nicht wiederherstellbaren Zustand gesperrt werden?

BarsMonster

2

-1: Die statistische Analyse wird verwendet, um MTBF-Zahlen zu bestimmen, und sie ist einer bestimmten Statistik bekannt - sie verwenden nicht nur "verschiedene Tricks". Sie benötigen einige wichtige Quellen, um Ihre Behauptungen zu untermauern, dass es sich bei Unternehmenslaufwerken nur um höhere Zahlen handelt, dass Festplattenhersteller ihre Laufwerke nach Ablauf der Garantie ausfallen lassen und dass Seagate jede Art von "programmiertem Tod" in ihre Laufwerke implementiert.

Kevin Vermeer

1

Es ist im besten Interesse der Laufwerkshersteller, eine höhere MTTF als ihre Konkurrenz zu zeigen. +1

Tyblu

Was genau ist ein Festplattenfehler? Was zählt für einen?

Kaitlyn Mcmordie

Mean Time to Failure (MTTF): Wenn Festplattenhersteller dies veröffentlichen, wie sollten Sie ihre Zahlen interpretieren?

Antworten: