Zuerst:
MTTF = Mittlere Ausfallzeit
MTTR = Mittlere Reparaturzeit
MTBF = Mittlere Zeit zwischen Ausfällen = MTTF + MTTR
MTBF ist oft mehr oder weniger gleich MTTF, da die Reparatur eine Stunde dauern kann und MTTF Zehntausende von Stunden betragen kann. Aber auch MTBF ist oft nicht anwendbar, da defekte Produkte nicht repariert, sondern einfach ersetzt werden, weil die Reparaturkosten höher sind als der Austausch.
Die MTTF-Berechnung ist eine komplexe statistische Methode, bei der die Wahrscheinlichkeit berechnet wird, dass jedes einzelne Teil versagt. Und es ist keine lineare Sache, wie die Leute manchmal annehmen. Wenn Sie eine MTTF von 1000 000 Stunden haben, bedeutet dies nicht, dass bei 1000 Geräten nach 1000 Stunden ein Fehler auftritt oder dass bei 1000 000 Geräten nach 1 Stunde ein Fehler auftritt.
Viele elektronische Geräte folgen der "Badewannenkurve" ,
Wo es früh viele Ausfälle gibt, dann eine lange Zeit mit kaum Ausfällen, und gegen Ende des Lebens steigt die Anzahl der Ausfälle wieder an. In Festplatten gibt es auch einige mechanische Teile, die eine linearere Ausfallkurve aufweisen. Dies steigt langsam ab Tag 1 an.
Wenn der Hersteller beispielsweise 1000 000 Stunden MTTF (meistens POH oder Einschaltstunden) angibt, bedeutet dies, dass das Laufwerk im Durchschnitt > 100 Jahre halten sollte. Einige Laufwerke halten länger, andere fallen früher aus. Trotz der 1000 000 Stunden ist es durchaus möglich, dass nach 1000 Stunden ein Fehler auftritt. Ich hatte einmal eine Fahrt, die innerhalb einer Woche ausfiel, und dann muss man an die Badewannenkurve zurückdenken. Das Ersatzlaufwerk dreht sich seit> 50.000 Stunden glücklich.
Wenn ein Gerät eine MTBF von 1.000.000 Stunden hat, bedeutet dies nicht, dass mit einem Gerät eine Lebensdauer von 1.000.000 Stunden erwartet werden kann. Es bedeutet vielmehr ungefähr, dass 1.000.000 Geräte, die innerhalb ihrer Nennlebensdauer liegen, jeweils eine Stunde lang oder 100.000 Stück zehn Stunden lang (aber immer noch innerhalb der Nennlebensdauer) oder 60.000.000 eine Minute lang usw. betrieben werden. Es wird ungefähr einen Fehler im Los geben. Beachten Sie, dass die Nennlebensdauer vollständig orthogonal zu MTBF ist. Betrachten Sie die folgenden zwei Arten von Widgets:
Der erste Widget-Typ hätte eine durchschnittliche Lebensdauer von ungefähr 1.000 Stunden und eine MTBF von ungefähr 1.000 Stunden. Der zweite hätte eine durchschnittliche Lebensdauer von 61 Minuten, aber eine MTBF von 1.000.000.000 Stunden innerhalb seiner Lebensdauer. Während es seltsam erscheinen mag zu sagen, dass das zweite Gerät eine MTBF hat, die fast milliardenfach so lang ist wie die erwartete Lebensdauer, ist die MTBF kaum eine bedeutungslose Zahl.
Angenommen, man führt ein Experiment durch, bei dem 1.000.000 Geräte eine Stunde lang einwandfrei funktionieren müssen. Danach werden sie alle verschrottet. Wenn ein Gerät ausfällt, wird das gesamte Experiment ruiniert. Was nützlicher wäre - ein Gerät, das durchschnittlich 1.000 Stunden hält, aber eine MTBF von nur 1.000 Stunden hat, oder ein Gerät, das höchstens 61 Minuten hält, aber nur eine von einer Milliarde Chancen hat, dies nicht zu tun diese Marke treffen?
quelle
Hinzu kommt die Antwort von stevenvh: Bekannte Festplattenhersteller und alle Hersteller elektronischer Komponenten brennen alle neue Geräte ein. Auf Festplatten gibt es nicht nur eine Gesamt-MTBF und MTTF, sondern auch individuelle Fehlerstatistiken für die Festplattenblöcke. Mit anderen Worten: Einige Teile des sich drehenden "Plattentellers" auf der Festplatte können fehlschlagen, während die Mehrheit noch in Ordnung liest / schreibt. Die sogenannten "fehlerhaften Sektoren" können erkannt und dann von der Firmware im Laufwerk zugeordnet werden.
Alle Antriebe enthalten heute zusätzliche Sektoren in Reserve, die dann anstelle der defekten Sektoren verwendet werden können. Dies ist lediglich eine Vorsichtsmaßnahme des Herstellers: Wenn sie dies nicht tun würden, könnten sie die Festplatte nicht mit der proklamierten Kapazität verkaufen. Wenn sie zusätzliche x% der versteckten Sektoren als Reserve einbauen, erhöhen sie die Kosten um einige <x%, erzielen jedoch eine viel höhere Gesamtproduktionsausbeute.
Die Festplatten zählen heute fehlerhafte Sektoren, die auch mit geeigneter Software ausgelesen werden können. Dieser und andere Festplattenzustandsparameter (z. B. Temperatur) werden als SMART- Werte bezeichnet.
Sobald der Hersteller den Einbrenntest des Laufwerks durchgeführt hat und einige Sektoren fast fehlerhaft sind und von der internen Firmware des Laufwerks neu zugeordnet wurden, wird der SMART-Parameter "Bad Sector Count" auf 0 gesetzt Laufwerk wird an Kunden geliefert.
Normalerweise sieht der Kunde nach dem Einbrennvorgang den bereits erwähnten Beginn der Badewannenkurve nicht mehr. Wir haben Glück und sehen nur eine Zunahme der Ausfallwahrscheinlichkeit im Laufe der Zeit.
Wenn Sie sich also die vom Hersteller angegebene MTTF ansehen, können Sie für eine mögliche Fehlermodellierung den Beginn der Badewannenkurve ignorieren.
quelle
Sie sollten dies als Marketing interpretieren. Sie kennen die genaue MTBF (mittlere Zeit zwischen Ausfällen) nicht genau, verwenden also verschiedene Tricks, um sie abzuschätzen, und sie zeigen höhere Zahlen für "Enterprise" -Laufwerke an, um ihre Kosten zu rechtfertigen.
In der Realität ist es für Festplattenhersteller rentabel, wenn ihre Festplatten kurz nach Ablauf der Garantie ausfallen.
Als Verschwörungstheorie glaube ich, dass ein Massenausfall von Seagate 7200.11 ein Fehler bei der Implementierung von "Programmed Death" war, der dazu führte, dass Festplatten ausfielen, bevor die Garantie abgelaufen war. Daher mussten sie dies durch ein Firmware-Update "beheben".
quelle