Festplatten austauschen [geschlossen]

19

Ich habe mich gefragt, ob es eine gute Idee ist, eine Festplatte in einem (ziemlich) systemkritischen Datenbankserver nach einer bestimmten Anzahl von Nutzungsjahren zu ersetzen, bevor sie abstirbt.

Zum Beispiel dachte ich daran, eine Festplatte nach 3 Jahren Gebrauch auszutauschen. Da ich über mehrere Festplatten auf Servern verfüge, könnte ich stufenweise festlegen, welche Festplatten ersetzt werden.

Ist das eine gute Idee oder warten die Leute nur auf das Scheitern?

Garfonzo
quelle

Antworten:

33

Google hat eine Studie über Festplattenlaufwerke durchgeführt und eine sehr geringe Korrelation zwischen Festplattenalter und -versagen festgestellt. SMART-Tests zeigen auch keine Fehler.

Meine lokalen Beobachtungen (> 500 Server) sind ähnlich. Ich habe neue Datenträger, die schnell ausfallen, während alte noch mit tuckern.

Meine allgemeine Regel ist, wenn wir Festplattenprobleme (SMART oder Systemfehler) feststellen, diese sofort zu ersetzen. Ist dies nicht der Fall, werden die Laufwerke beim Server aus- und wieder eingeschaltet.

Google-Studie http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

Jeffatrackaid
quelle
Dies war im Allgemeinen das, was ich dachte, aber ich wollte sehen, was andere taten. Danke
Garfonzo
2
Ich stimme zu. Bei neueren 2,5-Zoll-SAS-Laufwerken treten deutlich höhere Ausfallraten auf als bei 10-jährigen Servern mit 3,5-Zoll-9-GB-SCSI-Laufwerken!
James O'Gorman
@ JamesO'Gorman Die Herstellungsprozesse ändern sich ... ich frage mich, was im Rahmen eines technischen "Kompromisses" mit neuen Antrieben geschehen ist.
Avery Payne
1
Microsoft Technet hat auch einen Artikel über Fehlertoleranz, der kurz auf das Versagen von Festplatten und mechanischen Komponenten eingeht ( technet.microsoft.com/en-us/library/bb742464.aspx ) Ausfälle von Bauteilen sind die Folge.
Voretaq7
@AveryPayne Re neue Laufwerke, beachten Sie, dass 2,5" -Laufwerke haben VIELE engeren Toleranzen - Als Ergebnis , was früher ‚akzeptabel‘ mechanische Slop auf ein 3,5" Laufwerk zu einem katastrophalen Ausfall auf ein 2,5" -Laufwerk führen kann Siehe auch den TechNet - Artikel Ich habe über die Badewannenkurve verlinkt - Mechanische Komponenten leiden im Allgemeinen unter einer hohen Kindersterblichkeit und sind dann relativ stabil, bis sie endgültig an "Alter" sterben. Die 2,5 "-Laufwerke befinden sich immer noch im Gebiet der" Kindersterblichkeit "- meiner Erfahrung nach bei mindestens 1 Betriebsjahr.
voretaq7
13

Nein.

Eines der größten Probleme beim Ersetzen einer Festplatte auf einem aktiven Produktionsserver ist, dass dadurch eine Neuerstellung ausgelöst wird. Insbesondere, wenn Sie RAID5 verwenden und insbesondere, wenn Sie große Laufwerke verwenden, führt das Erzwingen einer Neuerstellung zu einem erheblichen Risiko eines nicht behebbaren Fehlers. Das Risiko, das Array während einer Wiederherstellung zu verlieren, ist weitaus größer als das Risiko, ein 3 Jahre altes Laufwerk an Ort und Stelle zu lassen.

Ein extremes Beispiel: Wenn Sie nacheinander jede Festplatte in einem RAID5-Array mit 6 Festplatten und 2 TB ersetzen, liegt das theoretische Risiko eines nicht behebbaren Lesefehlers bei einer der Neuerstellungen bei 58% (nach meiner Serviettenberechnung; Bitte machen Sie Ihre eigenen und vergleichen Sie Notizen). Mit anderen Worten: Ihr "vorbeugender" Plattenwechsel ist praktisch nichts anderes als ein Sabotageakt.

Das einzige Mal, wenn ich in Betracht ziehen würde, Laufwerke in einem alten Server zu aktualisieren, wäre das "Auffrischen", z. B. nachdem ich von einer Aufgabe getrennt wurde und bevor ich sie mit einer neuen Rolle wieder in Betrieb nehme. Auch zu diesem Zeitpunkt wären Kapazitäts- und Leistungsanforderungen weitaus wichtiger als das Alter der Laufwerke.

Skyhawk
quelle
1
+1 für das Auslösen des Wiederaufbaus
gregmac
Können Sie bitte erklären, warum das Risiko 58% beträgt? Wenn die Festplatte regelmäßig überwacht wird, warum wird dann eine Wiederherstellung mehr betont?
Mircea Vutcovici
@MirceaVutcovici, da in einer RAID-5-Anordnung alle Laufwerke während der Wiederherstellung ständig aktiv sind, im Gegensatz zu gelegentlichen zufälligen Suchen hier oder da. Mit anderen Worten, die "Last" aller Laufwerke steigt erheblich, und dadurch steigt auch das Risiko, dass Sie ein zweites ausgefallenes Laufwerk auslösen.
Avery Payne
@Avery Payne Ich weiß, dass Sie die Festplatten während eines Neuaufbaus stärker belasten. Ich versuche zu verstehen, warum ein Neuaufbau die Festplatten mehr belastet als eine Konsistenzprüfung.
Mircea Vutcovici
@MirceaVutcovici Die genaue Zahl (und wie man rechnet) ist umstritten, aber unterm Strich muss man sechsmal 10 Terabyte Daten lesen , ohne den Vorteil einer Paritätsdiskette, um etwaige Lesefehler zu korrigieren, um das auszuführen sechs Umbauten. Die Wahrscheinlichkeit, dass 60 Terabyte Daten fehlerfrei gelesen werden, spricht nicht für Sie.
Skyhawk
3

Ich habe es nicht gesehen Wir behalten die Garantie für Server, bis diese aus der Produktion genommen werden - 5 Jahre. Mit Standard-RAID 5 können Sie einen Festplattenausfall überstehen, sodass wir nur ein paar Laufwerke zur Hand haben, um sofort mit der Wiederherstellung zu beginnen. Auf kritischen Servern wird ein Hotspare oder RAID 10 verwendet.

Wenn Sie feststellen, dass mehrere Laufwerke ausfallen In letzter Zeit ist auf einem Server möglicherweise ein Backplane-Problem aufgetreten. Es kann sich auch um neue Vibrationen oder Staub von nahegelegenen Bauteilen handeln.

Paul Ackerman
quelle
Dies ist nicht ganz richtig. Wenn eine große Anzahl Ihrer Festplatten vom selben Los stammt, ist das Risiko eines gleichzeitigen Ausfalls erheblich höher, wenn Sie den Stress einer Neuerstellung hinzufügen. Wie in einer anderen Antwort angemerkt, führen zunehmende Größen von RAID5 zu steigenden Wahrscheinlichkeiten einer URE während der Neuerstellung, wodurch Ihr Array unter den RAID5-Gültigkeitsschwellenwert fällt.
Magellan