Hohe Ausfallrate bei großen Laufwerken?

24

Ich habe kürzlich einen Server mit 5 x 1 TB-Laufwerken bereitgestellt (die Marke werde ich nicht erwähnen, aber es war eine der beiden großen). Ich wurde anfangs davor gewarnt, Laufwerke mit großer Kapazität zu kaufen, da mir ein Freund geraten hat, dass sie eine sehr niedrige MTBF haben, und ich würde besser mehr Laufwerke mit kleinerer Kapazität kaufen, da sie in Bezug auf die Leistung nicht "an ihre Grenzen gebracht" werden Technologie kann damit umgehen.

Seitdem sind drei der fünf Festplatten ausgefallen. Zum Glück konnte ich das Array ersetzen und neu erstellen, bevor die nächste Festplatte ausfiel, aber das hat mich sehr beunruhigt.

Was sind deine Gedanken? Habe ich sie gerade in einer schlechten Charge bekommen? Oder fallen Festplatten mit neuerer / höherer Kapazität eher aus als bewährte Festplatten?

raid hardware hard-drive Mark Henderson
quelle

2

Warum erwähnen Sie die Marke nicht? Ich vermute, Ihre Charge bestand aus 7200,11 Cudas, von denen bekannt ist, dass sie zum frühen Tod neigen.

Dani

Eigentlich waren es Western Digitals ...

Mark Henderson

Nur zur Veranschaulichung, ich habe sie alle zurückgenommen und alle neuen bekommen, und sie laufen jetzt seit zwei Monaten ohne irgendwelche Probleme.

Mark Henderson

Ich hatte eine ähnliche Erfahrung. 16 1,5-TB-Laufwerke. In den ersten 4 Monaten fielen 4 harte aus. In den nächsten drei Jahren fiel ein Soft aus.

David Schwartz

19

Sie haben wahrscheinlich eine schlechte Partie. Aus diesem Grund bin ich nervös, Arrays zu implementieren, die aus Datenträgern desselben Stapels aufgebaut sind - sie haben wahrscheinlich eine ähnliche Lebensdauer, was das Erhalten von Ersatzgeräten potenziell sehr aufregend macht, wenn einer ausfällt.

Es ist nicht ausgeschlossen, dass die Laufwerke einen Konstruktionsfehler aufweisen. In der Regel ist das Internet jedoch voll von Beschwerden über das Laufwerk, wenn wirklich etwas nicht stimmt.

David Mackintosh
quelle

6

+1 Versuchen Sie, Ihre Einkäufe zu platzieren, von verschiedenen Händlern zu beziehen oder Marken zu mischen, um dies zu mildern.

Rob Allen

Sie können dies auch verhindern, indem Sie Laufwerke "einbrennen", die vom selben Ort zur selben Zeit stammen. Führen Sie ein schreibintensives Programm für mehrere Stunden / Tage durch. Staffelungsdauer, um unterschiedliches Altern zu simulieren. Ich habe ein einfaches Programm namens DriveTest erstellt, das pseudozufällige Daten ausschreibt, diese dann zurückliest und überprüft, um sie "einzubrennen" und gleichzeitig ein einfaches Testdesk durchzuführen. Dieser Tipp wird für SSDs nicht empfohlen.

rkagerer

13

Diese Frage ist schwer zu beantworten, es sei denn, Sie verfügen über die Ressourcen einer großen Organisation. Sehen Sie sich Googles Untersuchungen zu Festplattenfehlern an .

Bei einem signifikanten Kauf von Datenträgern stelle ich die ungefähre Datenträgergröße mit den niedrigsten Kosten pro Byte fest, die in der Regel eine Generation älter ist als die neueste. Dies ist sinnvoll, um die Zuverlässigkeit dieser Generation zu verbessern.

Knox
quelle

1

1,5 bis 2 TB sind derzeit die Blutungsschärfe. Würde 1 TB nicht Ihren Kriterien entsprechen? Sie sind ziemlich billig.

Mark Ransom

Sehr guter Punkt.

Knox

10

Mehr Platten + mehr Köpfe bedeuten eine höhere Ausfallwahrscheinlichkeit.

Nehmen Sie zwei gängige WD-Festplatten

640 GB = zwei Platten
1 TB = drei Platten

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Dieser zusätzliche Plattenteller bedeutet mehr Lärm, mehr Stromverbrauch, mehr Hitze, langsamere Bereitschaftszeiten für das Laufwerk, anfälliger für Stoßschäden und mehr Vibrationen.

Wenn sie dasselbe Laufwerk mit nur einer Platte herstellen würden, wären die technischen Daten sogar noch besser. In diesem Fall handelt es sich um Consumer-Laufwerke, es handelt sich jedoch um High-End-Consumer-Laufwerke mit doppeltem Cache und 5 Jahren Garantie. Sie werden eine ähnliche Mathematik sehen, wenn Sie die Dokumentation einer Marke oder eines Stils traditioneller Festplatten (sich drehende Platten) genau untersuchen. Es ist rein physikalisch, dass mehr Platten die Zuverlässigkeit eines Laufwerks beeinträchtigen.

Jeff Hengesbach hatte auch Recht, als er sagte

Das Hauptanliegen bei "großen" Laufwerken ist die Wiederherstellungszeit, wenn ein Fehler auftritt. Je größer das Laufwerk ist, desto länger dauert die Wiederherstellung, desto größer ist das Fenster für zusätzlichen Laufwerksausfall und möglichen Verlust des Arrays. Bei "großen" Laufwerken sollte der geschäftliche Wert der Verfügbarkeit ein akzeptables Risiko (Array-Verlust) bestimmen, das Ihre RAID-Level-Auswahl und die Anzahl der Laufwerke bestimmt (mehr Laufwerke = höhere Wahrscheinlichkeit eines Laufwerksausfalls).

Geben Sie eine kleine Dosis Graeme Perrow hinzu

Ein Laufwerk mit fünfzig Millionen Sektoren hat die zehnfache Chance, einen schlechten Sektor zu haben, als ein Laufwerk mit fünf Millionen Sektoren. Ich gehe davon aus, dass die Ausfallrate bei großen und kleinen Laufwerken gleich ist, was wahrscheinlich keine gute Annahme ist

Mehr Platten = schlecht
Mehr Stauraum ist ein gemischter Beutel. Vor- und Nachteile sind zahlreich.
Mehr Sektoren sind wirklich mehr Fehlerquellen. Nicht unbedingt linear im Maßstab, aber definitiv ein Faktor.

Sofern Sie nicht mehr Platz als Zuverlässigkeit benötigen, würde ich empfehlen, sich an Laufwerke mit einer oder zwei Platten zu halten. Um zu wissen, was Sie bei der Bestellung von Laufwerken erhalten, ist Recherche und in manchen Fällen Glück erforderlich, da einige Hersteller nicht nur vermeiden, die Anzahl der Platten zu veröffentlichen, die sie möglicherweise mehr als ein Laufwerk unter derselben Teilenummer verkaufen.

Nehmen wir zum Beispiel den WD3200AAKS, es gibt eine Single-Platter-Version mit 320 GB und eine Dual-Platter-Version mit 320 GB (160 GB x 2). Darüber hinaus werden mehrere Etiketten und Laufwerksgehäuse verwendet, sodass Sie das Laufwerk nicht so einfach betrachten und feststellen können, welcher Plattenteller sich im Inneren befindet. Sie können nur online suchen, um zu erfahren, dass WD3200AAKS-00B3A0 und WD3200AAKS-75VYA0 Ihnen nur einen Plattenteller angeben. Kein Händler kann Ihnen jedoch mitteilen, welchen Sie erhalten.

pplrppl
quelle

1

Wow. Das sind einige vertiefende Dinge! Vielen Dank! Ich hatte vorher nicht einmal die Anzahl der beweglichen Teile (Platten) berücksichtigt.

Mark Henderson

3

Ich bin der Meinung, dass eine überdurchschnittliche Ausfallrate auf eine neue Technologie hindeutet. Mir wurde immer gesagt, ich solle niemals das erste Modelljahr eines Autos kaufen und warten, bis die Fehler behoben sind. Ich würde sagen, dasselbe gilt wahrscheinlich auch für viele andere Dinge, einschließlich Festplatten.

Logan
quelle

1

Ich kann die ganze Auto-Analogie bestätigen (Auto-Analogien verirren sich doch nie, oder?). Ich gebe zu, ich war in Eile und habe es überhaupt nicht richtig recherchiert, und ich zahle jetzt den Preis!

Mark Henderson

3

Ich bin nicht sicher, ob es fair ist zu sagen, dass 'große' Festplatten eine höhere MTBF haben oder nicht. Ich habe ein Big-Name-System mit einer Handvoll 750-GB-Laufwerken und in den letzten 2+ Jahren ist keines ausgefallen (750 war vor 2 Jahren "groß"). Aber ich kenne auch ein Big-Name-System, das gebaut wurde, als 250 GB groß waren und das Array einige Male umgefallen ist. Die MTBF-Debatte ist so etwas wie ein heiliger Krieg.

Das Hauptanliegen bei "großen" Laufwerken ist die Wiederherstellungszeit, wenn ein Fehler auftritt. Je größer das Laufwerk ist, desto länger dauert die Wiederherstellung, desto größer ist das Fenster für zusätzlichen Laufwerksausfall und möglichen Verlust des Arrays. Bei "großen" Laufwerken sollte der geschäftliche Wert der Verfügbarkeit ein akzeptables Risiko (Array-Verlust) bestimmen, das Ihre RAID-Level-Auswahl und die Anzahl der Laufwerke bestimmt (mehr Laufwerke = höhere Wahrscheinlichkeit eines Laufwerksausfalls).

Business SATA / RAID hat in den letzten Jahren Fortschritte gemacht. Ich glaube nicht, dass die großen Namen es anbieten würden, wenn sie wüssten, dass es sich um ein großes Supportproblem oder eine Quelle von Kundenmangel handeln würde. Ich bin gespannt auf Ihre Zuverlässigkeit, sobald Sie einen Teil der ursprünglichen Charge ersetzt haben.

Jeff Hengesbach
quelle

1

Befinden sich alle auf demselben Computer oder Festplattencontroller? Sie haben gesagt, Sie müssen das Array neu erstellen. Wenn dies der Fall ist, ist möglicherweise ein Fehler am Controller, am Netzteil oder am Speicher aufgetreten . Wenn nicht, würde ich auch eine fehlerhafte Charge von Laufwerken erraten. Möglicherweise liegt auch ein Kompatibilitätsproblem mit den Laufwerken vor, die Sie für diesen Controller verwenden.

Ich frage mich auch, wenn Leute sagen, dass größere Festplatten eine höhere MTBF haben, wie das berechnet wird. Nehmen wir an, Sie haben 2 x 250 GB und 1 x 500 GB Festplatten. Vielleicht ist das naiv, aber würde das doppelt so große Laufwerk nicht mehr Daten enthalten, mit denen es ausfallen könnte? Ich glaube, ich weiß nicht, ob MTBF falsch gelesen oder geschrieben wurde oder ob die Festplatte dadurch mechanisch beschädigt wird. Weiß jemand, ob es einen strengen Industriestandard und eine Definition von MTBF für Festplatten gibt?

Kyle Brandt
quelle

1

Hier sind ein paar Dinge, die ich überprüfen würde: 1) Sind die Seriennummern auf den Laufwerken ziemlich nah? In diesem Fall liegt möglicherweise ein fehlerhafter Stapel vor. 2) In welcher Umgebung befindet sich Ihr Server? Haben Sie in letzter Zeit Probleme mit anderer Hardware? 3) Handelt es sich bei den Laufwerken zufällig um Seagate Barracuda-Laufwerke? Es gibt Probleme mit diesen Laufwerken. Sehen Sie sich diesen Computerworld-Artikel an. 4) Wurden diese Laufwerke als Teil eines Systems geliefert? oder hast du sie selbst gekauft? Wenn Sie OEM-Laufwerke gekauft haben, können Sie nicht sicherstellen, dass die Laufwerke vor dem Kauf sorgfältig behandelt wurden.

Ich persönlich hatte unglaubliches Glück mit Festplatten. Mir sind nur zwei Laufwerke ausgefallen. Nur einer dieser Fehler war auf einem Laufwerk, das ich tatsächlich benutzte. Überall um mich herum habe ich jedoch viele Menschen gesehen, die Daten auf Festplatten verloren haben.

Cyberkni
quelle

Hmm, ja, sie sind alle sehr nah beieinander, aber es waren WDs, keine Seagates, und ja, es waren OEM-Laufwerke ... ein paar Dinge, die ich dort nicht bedacht hatte ...

Mark Henderson

1

Die höhere Ausfallrate großer Laufwerke kann nur eine Funktion der Größe der Laufwerke sein. Ein Laufwerk mit fünfzig Millionen Sektoren hat die zehnfache Chance, einen schlechten Sektor zu haben, als ein Laufwerk mit fünf Millionen Sektoren. Ich gehe davon aus, dass die Ausfallrate bei großen und kleinen Laufwerken hier gleich ist, was wahrscheinlich keine gute Annahme ist - wie jemand anderes gesagt hat, dass Terabyte-Laufwerke noch relativ neu sind, haben sie wahrscheinlich eine höhere Ausfallrate anfangen mit.

In Ihrem Fall klingt es nur nach einem schlechten Stapel von Laufwerken.

Graeme Perrow
quelle

1

Wenn Sie alle Laufwerke zur gleichen Zeit am gleichen Ort gekauft haben, stammen sie möglicherweise alle aus einer einzigen, unsicheren Charge.

Bei der Zusammenstellung eines RAID-Arrays empfehle ich im Allgemeinen, die Laufwerke ein wenig zu mischen, dh eine Mischung aus Herstellern oder zumindest Laufwerken verschiedener Anbieter (um das Risiko zu verringern, dass alle Laufwerke aus einem fehlerhaften Stapel stammen).

Eine andere Empfehlung, die ich aussprechen möchte, ist, wenn möglich kleinere Laufwerke zu verwenden (dh Sie haben physischen Platz für die Laufwerke und Controller-Ports, um sie abzuhängen). Statt eines RAID 1-Volumes haben also zwei 1-TB-Laufwerke ein RAID 10 mit vier 500-GB-Einheiten. Auf diese Weise erstellen Sie bei einem Laufwerksausfall nur ein kleineres Array neu, das Teil eines größeren Arrays ist, anstatt das gesamte Array neu zu erstellen (wodurch die Zeitdauer verringert wird, in der das Array nicht vollständig ist), und es bietet auch etwas mehr Redundanz (In vier der sechs Szenarien, in denen zwei Laufwerke gleichzeitig ausfallen, wird ein RAID10-Array mit vier Laufwerken ausgeführt.) Sie können dasselbe tun, indem Sie kleinere R5-Arrays in einem R50-Array zusammenfassen, sofern dies von Ihrem RAID-Controller / Ihrer RAID-Software unterstützt wird.

Vielleicht bin ich übermäßig paranoid, aber ich wäre vorsichtig, wenn ich 1 TB Daten auf ein einzelnes Laufwerk vertraue, selbst wenn dieses Laufwerk Teil eines redundanten Arrays ist.

Offensichtlich gibt es physische Einschränkungen, die die Technik für Sie unpraktisch machen können, ebenso Einschränkungen hinsichtlich der Leistungsaufnahme, so YMMV. Als "Beispiel", wenn ein Array oder Arrays nicht praktisch ist: Ich hätte lieber vier Laufwerke als R10 in einem unserer Server anstelle der größeren Laufwerke in einem R1-Array, aber physisch hat es keinen Platz Der Kauf / Bau eines externen Arrays war aus Budgetgründen nicht möglich, und wir konnten keinen Speicherplatz für ein vorhandenes Array verwenden, da die Daten aus Datenschutzgründen physisch von allen anderen Daten getrennt werden mussten.

David Spillett
quelle

1

Jemand hat eine sehr detaillierte Studie zu diesem Problem größerer Laufwerke durchgeführt. Dies hat damit zu tun, dass die Bitfehlerrate konstant bleibt, obwohl die Laufwerksgröße zugenommen hat, und dass die Wiederherstellung der größeren Laufwerke länger dauert. Die beiden verbinden sich, um einen 2. Misserfolg beim Wiederaufbau sehr in den Bereich der Realität zu versetzen. Ich würde mit 500 GB oder kleineren Laufwerken auf RAID-Arrays gehen.

Bobcov
quelle

1

Verwenden Sie für Produktionszwecke immer Festplatten mit geringerer Kapazität. Habe nie die Physik dahinter überprüft, aber kleinere Festplatten neigen dazu, seltener kaputt zu gehen. Das haben mir alle immer gesagt.

Alakdae
quelle

0

Haben Sie ein Array mit Datenträgern erstellt, die alle aus demselben Stapel stammen und vom selben Lieferanten geliefert wurden? Mir wurde gesagt, das sei eine schlechte Sache ...

thijs
quelle

0

Betrachten Sie RAID-6. Die Möglichkeit eines Hard-Read-Fehlers während einer RAID-5-Rekonstruktion ist sehr real. Oder RAID-Z mit ZFS.

Brian Carlton
quelle

Hohe Ausfallrate bei großen Laufwerken?

Antworten: