Die mittlere Zeit zwischen Fehlern kann schwierig zu interpretieren sein, aber es gibt eine Fülle statistischer Methoden, die Sie verwenden können, wenn Sie über harte Daten verfügen.
Das Problem ist, dass niemand mehr seine MTBF-Nummern meldet. (Jedenfalls außer Festplattenherstellern.)
Wo Sie gehen zu MTBF Daten für Komponenten und Server zu finden?
Antworten:
Warum MTBF keine Rolle spielt
Die mittlere Zeit zwischen den Fehlernummern ist nicht so wichtig wie die nicht korrigierbare Fehlerrate. MTBF befasst sich mit dem vollständigen Ausfall des Teils, lesen Sie das Laufwerk. Diese Zahl ist jedoch bedeutungslos, wenn ein einzelnes fehlerhaftes Bit eine RAID 5-Panik auslöst und das Ersatzlaufwerk ins Spiel bringt.
Während die MTBF für Laufwerke auf Profi- und Verbraucherebene in den letzten Jahren um eine Größenordnung gestiegen ist, ist die nicht korrigierbare Fehlerrate relativ konstant geblieben. Diese Rate wird auf 10 ^ 14 Bit geschätzt, also ein Bit pro 12 gelesenen Terabyte für Consumer-SATA-Laufwerke, Quelle .
Warum sollten Sie den Schlaf über Ihr RAID 5-Array verlieren?
Das sind also nur 6 Durchgänge eines brandneuen 2-TB-Laufwerks. Wie lange dauert das Lesen von 12 TB Daten? Viel weniger Zeit als das MTBF für diese Fahrt.
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
Was mehr betrifft, ist die Wahrscheinlichkeit eines doppelten Lesefehlers auf einem RAID 5-Array, das aus so großen Laufwerken besteht. Bei einem RAID 5-Array mit 7 1-TB-Laufwerken beträgt die Wahrscheinlichkeit eines zweiten Lesefehlers bei einer RAID-Neuerstellung 50%.
http://blogs.zdnet.com/storage/?p=162
quelle
Es ist eine Schande, dass die Leute denken, dass die MTBF-Zahlen nicht für komplexe Systeme gelten. Das eigentliche Problem (afaik) ist, dass die Hersteller nicht über die MTBF-Werte für ihre Hardwaremodule verfügen. Dies sind Zahlen, die unbedingt verfügbar sein sollten. Dell sagt: "Dell listet keine bestimmten MTBFs mehr für ihre Server auf." ist eigentlich grausam! Sie können genauso gut sagen: "Nun, unser Zeug ist wirklich nicht zuverlässig genug, um dort eingesetzt zu werden, wo eine MTBF-Figur benötigt wird."
Der Zuverlässigkeitsingenieur (oder der Typ, der den Hut des RE trägt) soll den Umfang der Verfügbarkeitsstudie einschränken. Dies ist häufig auf die Hardwaremodule beschränkt.
Was die Klassifizierung eines Fehlers betrifft ... Deshalb führen wir eine FMECA-Analyse durch.
Sicher, Systeme sind komplex und Fehlermodi umfassen Softwarefehler, aber das ist oft nicht der Umfang der Studie. Wir wollen MTBF-Zahlen für Hardware. Bitten Sie Ihren Verkäufer, dies anzugeben. Es liegt in ihrer technischen Verantwortung, sie Ihnen zur Verfügung zu stellen.
quelle
Ich habe gesehen, wie MTBF auf Support-Websites des Unternehmens berichtet hat. Sprechen Sie mit Ihrem Verkäufer oder Ihrer SE, um die Informationen zu erhalten.
quelle
Aus meiner Sicht sind MTBF-Nummern zu einem Verkaufstool geworden. Moderne Hardware hat einen Zustand erreicht, in dem MTBF-Nummern im Wesentlichen unbrauchbar sind. Selbst der niedrigste Low-Ball-Anbieter produziert Hardware, die jeden vernünftigen Upgrade-Zyklus überdauert. Wie Sie bemerken, meldet niemand MTBF-Nummern. Ich glaube das ist der Grund.
quelle
Leider ist MTBF in modernen Servern keine praktische oder zuverlässige Messung. Das Konzept von MTBF besteht darin, dass wir, wenn ein bestimmtes Modell / eine bestimmte Konfiguration über einen längeren Zeitraum von vielen verwendet wird, wahrscheinlich dessen Zuverlässigkeit kennen.
Heutzutage tauschen die meisten von uns gerne potenzielle zusätzliche Zuverlässigkeit gegen nachgewiesene zusätzliche Leistung und Energieeffizienz. Würden Sie Ihre neuen Server beispielsweise auf 18 bis 24 Monate alter Hardware bauen, nur weil sie ihre Zuverlässigkeit bewiesen hat? oder einfach mit der letzten Generation von CPUs mit mehr Kernen, Leistung und Energieeffizienz?
Im Gegensatz zu Telefoniesystemen der alten Schule sind die Systeme sehr individuell und natürlich stark von Software abhängig. Wie zuverlässig ist die BIOS-Version x.xx oder die Treiberversion y.yyy? Erhöhen die neuesten Patches für OS / DB / App-Server die Stabilität oder gibt es Stabilitätsregressionen? Wie viele Server auf der Welt verwenden tatsächlich genau die gleiche Mischung aus Hardware- / Stack-Version wie Sie?
Wenn Sie eine hohe Verfügbarkeit benötigen, müssen Sie Ihrem System ohnehin Redundanz hinzufügen (Dual-Everything, Clustering, Hot Spares, DRP, was haben Sie). Daher ist die relative Zuverlässigkeit jeder Hardwarekomponente in der Regel kein wesentlicher Faktor, da Sie Ihre Infrastruktur aufbauen, um Ausfälle einzelner Komponenten zu überstehen. Lebe einfach mit der Unsicherheit (Zuverlässigkeit ist rückwirkend) und plane entsprechend.
quelle
Ich stimme den meisten anderen Antworten zu: MTBF-Nummern sind für mich nicht nützlich und ich überprüfe sie nie.
Die einzige Ausnahme sind Festplatten, aber selbst dort sehe ich MTBF nur sehr grob an und bin mir sicher, dass ich die zuverlässigeren Laufwerke der "Serverklasse" kaufe, wenn ich die Wahl habe.
quelle