Sollte ich eine Festplatte eines neuen RAID 1-Paares einspielen, um die Wahrscheinlichkeit einer ähnlichen Ausfallzeit zu verringern?

19

Ich richte ein RAID1-Array mit zwei neuen 4-TB-Festplatten ein.

Ich habe irgendwo zuvor gehört, dass die gleichzeitige Anschaffung eines RAID1-Arrays mit neuen identischen Festplatten die Wahrscheinlichkeit eines Ausfalls zu einem ähnlichen Zeitpunkt erhöht.

Ich überlege daher, eine der Festplatten für einen bestimmten Zeitraum (möglicherweise ein paar Wochen) alleine zu verwenden, um die Wahrscheinlichkeit zu verringern, dass beide innerhalb kurzer Zeit ausfallen. (Das nicht verwendete Laufwerk wird in einer Schublade nicht angeschlossen.)

Scheint dies ein vernünftiger Ansatz zu sein, oder verschwende ich eher nur meine Zeit?

a_henderson
quelle
2
Es ist eine oft gehörte Behauptung, aber ich habe noch keine Dokumentation dafür gefunden. Ein weitaus realeres Risiko besteht darin, dass eine Ihrer Festplatten einige fehlerhafte Sektoren entwickelt, die für eine Weile unbemerkt bleiben. Sobald jedoch die andere Festplatte ausfällt, werden Sie diese fehlerhaften Sektoren während der Neuerstellung bemerken.
Kasperd
8
Wenn Sie mit Dutzenden von Laufwerken gearbeitet haben, ist es möglicherweise sinnvoll, die Beschaffung aus wenigen Stapeln in Betracht zu ziehen. Für ein Set mit zwei Laufwerken lohnt es sich nicht, dies zu tun. Die Ausfallrate ist einfach nicht so ähnlich oder vorhersehbar ... eine könnte 3 Monate dauern, die andere könnte 5 Jahre dauern.
Jlehtinen
Ich persönlich würde nicht mit nur zwei Laufwerken überfallen. Die Verwendung von mehr Laufwerken bietet eine bessere Kapazität. Zum Beispiel würden 3 Laufwerke 8 TB Gesamtspeicher ergeben, im Gegensatz zu 2 Laufwerken, die nur 4 TB ergeben. Jedes Laufwerk kann im Dreier-Set ausfallen. Wenn es aus drei Quellen stammt, ist die Wahrscheinlichkeit eines Ausfalls gleichzeitig gering.
Phyrfox
3
@phyrfox - RAID-5 (und -6) weisen andere Leistungsmerkmale als RAID-1 auf, die möglicherweise nicht mit seiner Anwendung kompatibel sind. Wenn ich bei großen Laufwerken (insbesondere Laufwerken in Consumer-Qualität) höhere RAID-Level verwenden würde, würde ich auf jeden Fall RAID-6 verwenden, um einen zweiten Festplattenfehler zu vermeiden, während das Array nach einem Ausfall einer einzelnen Festplatte neu erstellt wird. Ich habe 2 Jahre lang ein RAID-6-Array mit 5 Festplatten unter Verwendung eines Satzes gleichzeitig gekaufter Laufwerke betrieben - eine Festplatte ist im Monat ausgefallen, alle anderen haben keine Probleme gezeigt.
Johnny
1
@phyrfox RAID5 senkt die Kosten pro Megabyte, ERHÖHT jedoch die Wahrscheinlichkeit eines Ausfalls, da mehr Laufwerke ausgefallen sind.
Caltor,

Antworten:

16

Es ist Zeitverschwendung.

Sie können keinen Ausfall auslösen oder die Laufwerke nicht auf sinnvolle Weise belasten. Sie haben RAID, und das ist ein guter Anfang. Stellen Sie einfach sicher, dass Sie eine Überwachung eingerichtet haben, um tatsächlich auftretende Fehler zu erkennen, und sichern Sie Ihre Daten, um sie vor Katastrophen zu schützen.

ewwhite
quelle
2
Stimmen Sie konventionellem HDS zu, aber für SSDs ist es eine ganz andere Geschichte. Dachte, das war es wert, bemerkt zu werden, bevor 4-TB-SSDs billig und verfügbar wurden und die Leser nicht bemerken, dass wir hier über Rost reden, aber vielleicht werden sie dann mehr Schreibvorgänge erledigen.
Symcbean
3
Ja, sicherlich wurde jedes "Enterprise" -Laufwerk bereits auf Herz und Nieren getestet, um die frühen Ausfälle in der Badewannen-Kurve zu überstehen. Obwohl ich weiß, ob Sie ein Paar Generatoren kaufen, empfiehlt es sich, zwischen 66% und 33% zu wechseln, da sich auf diese Weise beide nicht gleichzeitig abnutzen. Bei Antrieben weist die MTBF jedoch eine recht große Standardabweichung auf, sodass dies weitaus weniger problematisch ist.
Sobrique
5

Wenn Sie sich darüber Sorgen machen, ist es möglicherweise besser, verschiedene Marken oder Serien von Datenträgern zusammen zu verwenden.

Ich habe gesehen, dass Festplatten ähnlichen Typs und ähnlichen Alters in Clustern ausfallen, daher ist dies meiner Meinung nach keine urbane Angelegenheit.

wurtel
quelle
1
Das habe ich auch, aber es lag eher an der zwielichtigen Firmware als an irgendetwas, was mit MTBF zu tun hat.
Sobrique
2

Große Frage - Im Gegensatz zu Autoscheinwerfern ist dies jedoch Zeitverschwendung. Die MTBF-Bewertung (Mean Time Between Failures) für 4-GB-Laufwerke (in diesem Beispiel WD Red) beträgt 1.000.000 Stunden. Die Wahrscheinlichkeit, dass zwei Laufwerke gleichzeitig in einem Spiegel beschädigt werden, ist äußerst gering. Als ich das gesehen habe, war es, weil das erste Laufwerk ausgefallen ist, ohne dass es jemand bemerkt hat. Besser, um mit Backups zu schützen, als zuerst ein Laufwerk einzubrennen. Wenn Sie Laufwerkstypen mischen, stellen Sie sicher, dass die Laufwerke dieselbe Geschwindigkeit haben. Wenn Sie paranoid sind, ist RAID 10 genau das Richtige für Sie.

DocB
quelle
MTBF geht davon aus, dass die Festplatten unabhängig sind und sich nicht im selben RAID-Set befinden. Es gibt andere Gründe, warum dies Zeitverschwendung ist, aber eine lächerliche Zahl, die vom Hersteller herausgegeben wird und eine schwache Korrelation mit der Realität aufweist, gehört nicht dazu.
HopelessN00b
5
Wenn eine Festplatte tatsächlich die angegebene mittlere Zeit zwischen Ausfällen hatte, warum sind dann die Garantiezeiten so kurz? 1M Stunden sind 114 Jahre, geben oder nehmen. Für den WD Red Pro (weil ich einen aus dem Sortiment ausgewählt habe) wird eine Garantie von fünf Jahren gewährt. Selbst wenn Sie die Hälfte der mittleren Ausfallzeit in Anspruch nehmen, glaubt Western Digital nicht, dass dies für mehr als ein Zehntel des angegebenen MTBF-Zeitraums zuverlässig ist. Nun, was würdest du eher glauben? Irgendeine zufällige Statistik ohne Verpflichtungen, oder wo ist das Geld eigentlich? (Garantierückgaben, Rückerstattungen, Nachbesserungen und Ersatzlieferungen kosten echtes Geld.)
ein Lebenslauf vom
1
@ MichaelKjörling: Wenn sie den MTBF garantieren würden, würden sie über 50% (ja, zu lange Laufzeit bei der Verteilung) der Laufwerke ersetzen, die unter die Garantie fallen. Sicher, Sie sollten nachsehen, wo das Geld ist, aber ich sehe keinen Grund zu der Annahme, dass das MTBF nicht eine Größenordnung länger ist als die Garantie, und einige glauben, dass dies der Fall ist.
Ben Voigt
@ MichaelKjörling Ich habe Hardware mit einer veröffentlichten MTBF von 100.000 Stunden gesehen, die sich nach 1.000 Betriebsstunden durchgehend abnutzen würde. Die nächste Generation der Hardware hatte eine veröffentlichte MTBF von 200.000 Stunden. Als die erste Charge der neuen Hardware 48 Stunden lang in Betrieb war, waren mehr als 50% von ihnen ausgefallen.
Kasperd
1

Obwohl es theoretisch sinnvoll ist, unterstützen die Daten nicht die Notwendigkeit für work inIhr Laufwerk.
Nicht nur, dass ein paar Wochen keinen wirklichen Einfluss haben, auch die Ausfallquoten funktionieren nicht wirklich, wenn nur zwei Laufwerke betrachtet werden.

Bei Laufwerken desselben Modells gab es zwar Hinweise auf normalere Ausfallraten .

Die meisten altersbedingten Ergebnisse werden von den Laufwerksjahrgängen beeinflusst ... Interessanterweise ändert dies nichts an unseren Schlussfolgerungen. Im Gegensatz zu altersbezogenen Ergebnissen stellen wir fest, dass alle im Rest der Arbeit gezeigten Ergebnisse nicht wesentlich vom Bevölkerungsmix beeinflusst werden. (Hervorhebung von mir)

Altersbedingte Ausfälle, bei denen es sich nur um eine kleine Untergruppe von Ausfällen handelt, können daher in gewisser Weise mit den Fahrjahren korreliert werden. Aber die meisten Ausfälle können nicht.
Wenn Sie dazu die Gesamtausfallquoten addieren, die für ein bestimmtes Jahr einen Spitzenwert von 8% erreichen können, ist die Wahrscheinlichkeit, dass beide Laufwerke im selben Jahr ausfallen, gering und sie fallen in derselben Woche aus, vernachlässigbar.
Und dies ist, wenn Sie sich jede mögliche Fehlerursache ansehen, nicht nur altersbedingte Fehler.

Wenn Sie das Risiko minimieren wollen, aber zwei Laufwerke eines unterschiedlichen Jahrgangs.
Wenn Sie Versicherungen wünschen, schließen Sie eine Versicherung ab.
Und wie die Antwort von ewwhite bereits sagte, sind Backups und Überwachung ein Muss.

Reaktionen
quelle
0

Dies ist nach meiner Erfahrung in der Regel ein Argument für SSDs mehr als für HDDs. SSDs haben begrenzte Schreibzyklen. Wenn Sie also ein RAID1 mit zwei SSDs desselben Modells verwenden, sollten beide nahezu zur gleichen Zeit keine Schreibzyklen mehr haben.

Was allgemeine Ausfälle betrifft, es sei denn, Sie haben ein ernstes Problem wie Massenvibration, statische Aufladung oder hohe Hitze. Ich vermute nicht, dass 2 von 2 Laufwerken gleichzeitig ausfallen.

Ein Hauptanliegen bei RAID1 (und RAID10) mit größeren Laufwerken wie 4 TB ist die Wiederherstellung. Wenn bei einem Spiegel mit zwei Laufwerken ein Laufwerk ausfällt, trägt das andere Laufwerk die doppelte Arbeitslast. Wenn Sie dann neu erstellen, wird dieses Laufwerk noch stärker ausgelastet. Wenn mit diesem Laufwerk ein Fehler aufgetreten ist, ist es wahrscheinlich, dass es unter diesen Bedingungen fehlschlägt, insbesondere wenn die Neuerstellung eines 4-TB-Spiegels unter Last eine lange Zeit in Anspruch nehmen kann.

Devon
quelle
0

Sie können, aber es wird nicht zu viel helfen.

Befindet sich beispielsweise eine Nadel in der Eingangsleistung, werden beide Festplatten durch dieselbe Nadel getötet.

Was ist wichtig: Sie müssen ein gutes Backup haben. Raid macht ein gutes Backup nicht wett. Wenn Sie eine gute Sicherungskopie haben, ist ein Spiegelungs-Raid möglicherweise nicht unbedingt erforderlich (wenn Sie einen Systemzusammenbruch nach etwa zwei bis drei Jahren tolerieren können).

sagt Peter, stell Monica wieder her
quelle
3
Bei RAID geht es um Verfügbarkeit und nicht um das Sichern von Daten. Der Punkt ist, das System verfügbar zu halten, wenn ein Laufwerk ausfällt, und nicht die Daten auf dem Laufwerk zu schützen.
HopelessN00b
@ HopelessN00b Genau das habe ich versucht in der Antwort zu erklären, vielleicht war ich nicht klar genug?
Peter sagt, Monica
Dein Satz am Ende trübt das Wasser.
HopelessN00b
@ HopelessN00b Raid schützt auch vor Datenverlust durch Festplattenfehler. Dies führt oft zu der falschen Schlussfolgerung, dass es sich um ein Backup handelt. Aber Raid und Backups sind situationsabhängig. Es gibt Fälle, in denen selbst eine professionelle Systemumgebung nicht beide benötigt. Meiner Meinung nach ist es nicht das Ziel , einem unerfahrenen Systemadministrator beides aufzuzwingen, sondern ihm klar zu machen, dass das Spiegeln der Festplatten und das Sichern ihrer Daten unterschiedliche Lösungen für unterschiedliche Probleme sind.
Peter sagt, Monica am