Suchen Sie nach einer tatsächlichen Erfahrung mit RAID 5 2-Laufwerksfehlern? [geschlossen]

15

Ich frage mich, ob jemand persönliche Erfahrungen mit RAID 5 2-Laufwerksfehlern bei großen Laufwerken hat.

Nach meinem Verständnis ist die Theorie, dass bei großen 1 bis 2 TB-Laufwerken, wenn ein Laufwerk im RAID-Satz ausfällt, alles neu erstellt werden muss, so dass alle anderen Laufwerke sehr hart getroffen werden und die Wahrscheinlichkeit eines weiteren Ausfalls steigt. vor allem, wenn die Laufwerke aus derselben Fertigung stammen. Und wenn Sie ein anderes Laufwerk verlieren, verlieren Sie alle Daten.

Dies wird normalerweise nach der Aussage "RAID ist kein Backup" erklärt, mit der ich einverstanden bin.

Die Theorie dazu macht Sinn, und ich verstehe es, aber passiert es wirklich?

Brian
quelle
Leider haben wir gerade eine neue Frage mit Live-Erfahrung bekommen. :( superuser.com/questions/516844/…
Hennes

Antworten:

15

Ja, mir ist es passiert. Ein Satz von 4 (Consumer Grade) WD 500-Laufwerken ging im Verlauf von etwa einer Woche kaputt. Ich habe das erste Array nur langsam ausgetauscht und es nicht offline geschaltet. Als das zweite fehlschlug, gingen alle meine Daten verloren. Ich habe die verbleibenden zwei guten wiederverwendet, und einer von ihnen ist innerhalb des nächsten Monats gescheitert. Sie waren alle gut gekühlt und gepflegt. Ich kann nur sagen, dass ich jetzt der "schlechten Partie" Rhetorik glaube.

In einem separaten Vorfall fielen innerhalb eines Monats drei separate Laufwerke verschiedener Hersteller und Modelle aus, obwohl ich mir ziemlich sicher bin, dass der Grund für den Ausfall eine unzureichende Belüftung war. Kochen Sie nicht Ihre Laufwerke!

Paul McMillan
quelle
3
Als Konsequenz sollten Sie ein Ersatzteil bereithalten, wenn ein Laufwerk ausfällt. Hüten Sie sich auch vor unbemerkter Beschädigung ... Es ist einfach, Daten auf einem Laufwerk zu verlieren, das nur so tut, als würde es funktionieren.
Paul McMillan
Dies ist ein weiterer Grund, warum Sie in einem RAID-Array keine Laufwerke installieren sollten, die alle aus dem gleichen Stapel stammen - sie weisen korrelierte Ausfallzeiten auf (Sie wissen, wie die Ausfallraten von Hypothekensicherungspapieren mit Subprime-Tranchierung).
Andrew Mao
4

Dies ist mir tatsächlich passiert, aber es war nicht die häufigste Art, wie ein Laufwerk ausfallen würde. Ich hatte 4 externe 500-GB-Sata-Laufwerke in RAID 5. Sie waren an einen billigen alten IBM-Rack-Server angeschlossen. Das ganze Setup war unter der Treppe versteckt und eines Tages entweder eine Ratte oder ein Hase, aber etwas, das durch einige Stromkabel gekaut wurde, und zwei Laufwerke waren kurzgeschlossen. Alle Laufwerke befanden sich in billigen externen Gehäusen, daher hätte ich nicht so überrascht sein sollen.

AdamB
quelle
3

Fragen Sie, ob Sie zwei Laufwerke hintereinander verlieren können? Klar, alles kann passieren. RAID 5 ermöglicht eine hohe Verfügbarkeit und Leistungssteigerung für den Datenzugriff, RAID 5 sichert jedoch nichts. Es hilft nur, die Verwendung Ihrer Daten aufgrund eines Hardwareverlusts eines einzelnen Laufwerks zu verhindern. Es ist keine Kopie Ihrer Daten. Sie können keine alte Kopie, keine alte Revision oder nur eine Kopie Ihrer aktuellen Arbeit wiederherstellen. Schützt auch nicht vor Datenkorruption. Es gibt mehr Dinge, die schief gehen können, als nur eine Festplatte zu verlieren. Viren könnten all deine Daten beschädigen, kleine Schwester mag es zu beobachten, wie der Mülleimer auf deinem Desktop voll und leer wird, während sie Dateien hineinwirft, dummer Freund eine Limonade auf deinen Computer wirft usw.

Denken Sie auch daran, dass Sie den Festplatten-RAID-Controller verlieren können. Und Sie können das Array nicht einfach auf einen anderen zufälligen Controller verschieben. Normalerweise muss man genau dasselbe verwenden und trotzdem könnte etwas schief gehen. Einige RAID-Controller speichern Informationen an Bord und andere senden Konfigurationsinformationen an das angeschlossene Array. Es ist ein Glücksspiel, wenn diese Situation entsteht.

Dieselbe Frage bei SF: /server/2888/why-is-raid-not-a-backup

Benötigen Sie weitere Gründe?

EDIT: Deine Idee ist richtig und könnte jedem passieren. Ich persönlich habe nicht gesehen, dass mehr als ein Laufwerk ausgefallen ist, aber ich habe gesehen, dass einige wirklich dicht beieinander liegen. Keiner von ihnen befand sich in diesem Fenster des Wiederaufbaus, aber es ist technisch ein Risiko. Aber Sie haben ein Backup für den Fall, dass etwas passiert, oder? Haha. Manche Leute lernen manchmal auf die harte Tour. Raid 6 bringt es mit doppelter Parität auf das nächste Level und kann bis zu 2 Laufwerke verlieren. Bei jedem RAID-Setup steigt die Wahrscheinlichkeit eines Ausfalls mit der Größe (Anzahl der Laufwerke) und der Komplexität des Arrays. Mehr Laufwerke = mehr mögliche Fehlerquellen

Troggy
quelle
Entschuldigung, ich verstehe das alles und frage nur, ob es jemandem passiert ist und wie das Szenario war.
Brian
3

Sie haben Recht, wenn Sie in einem RAID-5-Szenario eine Festplatte verlieren und dann neu erstellen, muss das System alle Sektoren aller verbleibenden Laufwerke im RAID-Satz erfolgreich lesen. NetApp behauptet, dass in bestimmten Situationen (sie können RAID-Sätze mit bis zu 28 Laufwerken ausführen) die Wahrscheinlichkeit eines zweiten Ausfalls bis zu eins zu zehn betragen kann. Sie machen also eine "Dual-Parity", von der ich glaube, dass sie mit RAID-6 zusammenhängt.

Je mehr Laufwerke Sie in einem RAID-Set haben und je größer diese sind, desto wahrscheinlicher ist es, dass Sie auf ein Problem stoßen. Bei einem kleinen RAID-Set (3-5 Festplatten) haben sich die Chancen gegen die Verwendung von RAID-5 wahrscheinlich nicht zu stark verschoben.

Aber ich mache immer Raid-DP auf NetApps, wo ich kann.

David Mackintosh
quelle
+1 Ich hatte nie über die Tatsache nachgedacht, dass jeder Sektor aller überlebenden Laufwerke erfolgreich gelesen werden muss.
AaronLS
2

Keine persönliche Erfahrung, aber ich habe den Schreien derer zugehört, denen es passiert ist. Jedes Speichersystem - sei es ein einzelnes Laufwerk, ein USB-Stick, ein Band, eine riesige RAID-Installation oder Amazon S3 - fällt irgendwann aus, was für Sie am unangenehmsten ist. Ein zweiter Fehler beim Wiederherstellen eines RAID 5-Satzes ist nur eine der Möglichkeiten, wie dies passieren kann.

Abgesehen davon wurde vor ein paar Tagen die Unterstützung für Triple-Parity-RAID in OpenSolaris integriert. Mindestens ein Anbieter ist der Meinung, dass sich die Mühe lohnt, zwei zusätzliche Fehler während der Wiederherstellung von Parity-RAID zu berücksichtigen.

Stephen Veiss
quelle
1

Das passiert tatsächlich. Aus diesem Grund verwenden NetApp Speicherlösungen RAID 6. Dies ist nur für den Fall der Fall, dass Sie während der Wiederherstellung ein zweites Laufwerk verlieren.

Sie können die Wahrscheinlichkeit eines Ausfalls mithilfe der auf der folgenden Seite aufgeführten Standardformeln berechnen. Linktext Wenn Sie auf eine immer größere Anzahl von Datenlaufwerken skalieren, steigt die Wahrscheinlichkeit eines solchen Ausfalls. Wenn Sie über genügend Festplatten verfügen, können Sie diese Nummer in die Problemzone verschieben, wenn Sie ein RAID 5 mit einer großen Anzahl von Datenvolumina verwenden.

Ich kann Ihnen aus eigener Erfahrung sagen, dass Sie innerhalb desselben kritischen Zeitraums mit Sicherheit zwei Laufwerksausfälle in demselben Array haben können. Überfall 6 rettete mich vor dem Wiederherstellen aus dem Backup.

Hoffe das hilft

Axxmasterr
quelle
1

Hier ist ein Szenario: Ein Laufwerk fällt in Ihrem RAID5-Array aus, aber Ihr Ersatzlaufwerk war bereits im Einsatz, oder die Bestellung für die neue Festplatte ist endlich eingegangen. Sie (oder ein entfernter Diener vielleicht) haben ein neues Laufwerk in der Hand, um ein fehlerhaftes Laufwerk zu ersetzen. Aufgrund schlechter Beschriftung, Müdigkeit oder einfach nur Dummheit wird eines der verbleibenden guten Laufwerke anstelle des fehlerhaften ausgeworfen ... und es gibt Ihren zweiten Fehler.

camster342
quelle
1

Ich habe dies mehrere Male gesehen, als ich im Datenrettungsgeschäft bin. Und ja, sie fallen oft gleichzeitig aus, aber ich glaube nicht, dass dies irgendetwas damit zu tun hat, als sie notwendigerweise gebaut wurden, wie ich auch gesehen habe, dass es mit nicht übereinstimmenden Laufwerken passiert ist. Am häufigsten tritt diese Art von Ausfall kurz nach einem Gewitter, einem Stromstoß oder einem Stromausfall auf.

In der Regel beschädigt die Überspannung die Laufwerke oder den RAID-Controller und innerhalb weniger Tage treten Fehler auf. Ich arbeite gerade daran, ein Array wiederherzustellen, bei dem nach einem Stromausfall zwei Laufwerke gleichzeitig ausfallen. (sieht im Moment hoffnungslos aus)

Ein kleiner Tipp: Überspannungsschutz schützt Ihre Ausrüstung nicht wirklich. Schließen Sie Ihren RAID 5 immer an eine gute USV an. Ich habe das noch nie gesehen, als sich das Array an einer USV befand.

Jared
quelle
1

Das versehentliche Herausziehen eines zweiten Laufwerks aus einem Single-Parity-Satz sollte das Array bei einer guten RAID-Implementierung nicht zerstören. Ich weiß, dass ZFS RAID-Z alle E / A-Vorgänge auf dem Array einfriert, bis Sie es wieder online stellen.

Sfynx
quelle
0

Ein weiteres Szenario: Ein Remote-Minion wird angewiesen, das Sicherungsband aus dem Bandlaufwerk zu holen. Sie geht zum Rack und zieht das Band nicht aus dem Bandlaufwerk, sondern zwei (zwei) Festplatten gleichzeitig aus den Laufwerksschächten und es kommt zu einem Ausfall des voila: 2-Laufwerks.

Sie denken, das ist weit hergeholt? Nun, ich bin jetzt bei einem Kunden, der genau das getan hat und sich jetzt einen Serverumbau ansieht.

Gut, dass sie nicht das Band gebrannt hat, das sich tatsächlich im Bandlaufwerk befand oder so ;-)

Mathias
quelle