RAID-6: Besser zwei tote Laufwerke gleichzeitig oder eines nach dem anderen ersetzen?

21

Wir haben ein RAID-6 mit 16 Laufwerken und drei problematischen Laufwerken. Zwei sind bereits tot und der dritte warnt SMART. (Vergiss nicht, wie es in einen so schlechten Zustand geriet.)

Natürlich wollen wir die toten Laufwerke vor dem noch funktionierenden austauschen, aber ist es besser:

  1. Ersetzen Sie ein unbenutztes Laufwerk, lassen Sie das RAID neu erstellen, ersetzen Sie dann das andere und lassen Sie es erneut erstellen. oder

  2. Ersetzen Sie beide Laufwerke gleichzeitig und lassen Sie beide gleichzeitig neu erstellen?

Um es anders auszudrücken: Werden wir durch die Wiedereinführung von ein oder zwei Laufwerken schneller zu einem Zustand der Redundanz zurückkehren? Verlangsamt die parallele Wiederherstellung von zwei Laufwerken den Wiederherstellungsprozess?

Falls es darauf ankommt, ist der Controller ein 3ware 9650SE-16ML.

Warren Young
quelle
10
Kreuzen Sie alles an, was Sie haben und senden Sie Ihrer Lieblingsgottheit eine große Spende!
user9517 unterstützt GoFundMonica
1
Kann ich dazu nur eine Frage stellen? Können Sie uns bitte die genaue Marke und das Modell der Festplatte in diesem Array mitteilen? Wenn meine Vermutungen zutreffen, wird diese Frage möglicherweise zu einem nützlichen Bezugspunkt für zukünftige Benutzer, die bestimmte Fragen stellen. Vielen Dank.
Chopper3
8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Sie haben es ausgeschaltet? Bad JuJu mein Freund! Diesmal ist es zu spät, aber das Herunterfahren der Laufwerke (insbesondere wenn es sich um ältere Laufwerke handelt, die schon lange in Betrieb sind) gibt ihnen die Möglichkeit, Fehler beim Hochfahren auszulösen (und den Controller zu veranlassen, "Ja, das Laufwerk ist jetzt auch gebraten ")
voretaq7
2
@ voretaq7: Ich habe einmal alle Festplatten von einer MSA-20-Box in die Hölle geschickt, indem ich sie nach ~ 3 Jahren Betriebszeit und kontinuierlichem Gebrauch heruntergefahren habe. Werde das nie wieder machen :-)
Karatedog
1
Das Array wird gerade aktualisiert, sodass ich für jeden, der sich interessiert, genaue Modelle bekommen kann. Die ursprünglichen Festplatten waren ST31000340NS, was bedeutet, dass es sich um die serverbezogene Version des Chopper3 handelt, nach dem gefragt wurde. Also sind diese berüchtigt für ihr Scheitern oder so? (Die neuen sind ST31000524NS.)
Warren Young

Antworten:

27

!!!!! EINS !!!!!

Tun Sie eins nach dem anderen, ernsthafter Typ, denken Sie nicht daran, dies auf eine andere Art und Weise zu tun.

Alles andere wird Ihre Fähigkeiten zur vollständigen Systemwiederherstellung auf die Probe stellen.

Chopper3
quelle
3
Die beiden Punkte, die ich zu dieser Antwort hinzufügen möchte, sind (1) GEBET (zu welcher Gottheit auch immer Sie möchten ) und (2) ÜBERWACHUNG, sobald Sie alles wieder in einen sicheren Zustand gebracht haben (damit Sie wissen, wann Laufwerke in Zukunft ausfallen und sich um etwas kümmern können Optional können Sie auch ein Ersatzlaufwerk im Array für die Zukunft konfigurieren
voretaq7
3
Oder verwenden Sie RAID 10 </ stockanswer>
Chopper3
1
Re: Gebet , kein Kommentar. :) Betreff: Überwachung , das befürworte ich seit Jahren; Vielleicht entzündet dies ein Feuer unter jemandem. Betreff: RAID-10 , zu viele Daten in einem Bid Market; Als 3-TB-Festplatten herauskamen, haben wir die Redundanz nicht verdreifacht, sondern die Anzahl der Festplatten um 1/3 verringert. Seufzer. Re: Hot - Spares , das machen wir jetzt , dass Laufwerke groß genug sind , um es zu ermöglichen, aber dieser bestimmte Server waren 16 Laufwerke in einem 16 - Laufwerk - Gehäuse, wenn 1 - TB - Laufwerke die größten waren Sie bekommen können, und wir wirklich alle 14 verfügbaren TB benötigt . Ein System mit 24 Laufwerken hätte nicht funktioniert. siehe vorher. :)
Warren Young
2
Wenn die Laufwerke bereits ausgefallen sind, gibt es keinen Grund, sie in der Nähe zu halten. Ich würde eher davon ausgehen, dass zwei aufeinanderfolgende Neuerstellungen für die anderen Laufwerke anstrengender sind als eine einzige.
Simon Richter
1
+1, dies. Während zwei aufeinanderfolgende Neuerstellungen mehr Stress verursachen und mit größerer Wahrscheinlichkeit dazu führen, dass das dritte Laufwerk ausfällt, bevor Sie beide beenden, ist dies auch eine schnellere Neuerstellung. Wenn das marginale Laufwerk während der Neuerstellung des zweiten Laufwerks ausfällt, bleiben Sie weiterhin online. Der schnellste und sicherste Weg zu einem fehlertoleranten Zustand ist also einer nach dem anderen.
Joel Coel
14

Haben Sie gute, aktuelle Backups? Wenn nicht, denken Sie, können Sie sie in angemessener Zeit bekommen?

Ich würde mir ehrlich gesagt mehr Sorgen machen, das fehlerhafte Laufwerk während einer Wiederherstellung offline zu schalten als alles andere. Wenn Sie bereits SMART-Fehler auslösen, sind Sie mehr als auf halbem Weg.

Mein Vorschlag wäre, Ihre Sicherungen zu bestätigen und dann jeweils ein Laufwerk neu zu erstellen, um zu versuchen, einen Zustand wiederherzustellen, in dem Sie das ersetzen können, das SMART-Fehler verursacht (zuerst tote Laufwerke, zuletzt Soft-Fehler).

Wenn Sie keine Backups haben, handelt es sich um ein Mist-Shooting: Das Sichern kann genug weiche Fehler verursachen, um das marginale Laufwerk als ausgefallen zu markieren, ebenso wie der Versuch, ein Rebuild durchzuführen.

voretaq7
quelle
2
Die meisten oder alle Daten in diesem Array sind eine Art Cache, um zu vermeiden, dass Terabytes an Daten wiederholt über eine langsame Verbindung abgerufen werden müssen. Diese Cache-Daten können alle ausgetauscht werden, indem sie entweder über Monate (einmal) erneut heruntergeladen oder an eine Site gesendet werden, die von einem anderen Array kopiert werden kann. Backups sind also nicht das Problem. Wir versuchen zu verhindern, indem wir das Array speichern, indem wir die Ausfallzeit von Tagen bis Wochen auf den Server zu einem Service-Depot übertragen, das Array neu auffüllen und zurücksenden.
Warren Young
In diesem Fall ist @ chopper3 so ziemlich das Gesetz des Landes: Erstellen Sie ein Laufwerk nach dem anderen neu und beten Sie WIRKLICH, dass Sie das marginale Laufwerk nicht mit der zusätzlichen Leselast offline auslösen.
Voretaq7
Puh - freut mich das zu hören.
Chopper3
0

Ich sehe keinen Grund, es als "eine Festplatte pro Zeit" zu ändern.

Wenn RAID in der Lage ist, beide Festplatten gleichzeitig zu "resilvern" ( was ohnehin fehlgeschlagen ist ), gewinnen Sie natürlich nur , wenn das gesamte RAID wieder in der Lage ist, bis zu zwei Ausfälle schneller zu überstehen .

Poige
quelle
-1

Meine 0.02. $

Da der Server bereits offline ist, führen Sie ddrescue auf dem Laufwerk aus, dessen Ausfall bevorsteht, um es auf ein anderes, vernünftiges Laufwerk zu klonen.

Legen Sie dann stattdessen das neue, vernünftige Laufwerk in das Array ein. Wenn das Klonen erfolgreich ist, vermeiden Sie das Risiko, dass dieses Laufwerk während zweier Neuerstellungen ausfällt.

Guillaume A
quelle
Es handelt sich um einen Hardware-RAID-Controller, die einzelnen Festplatten sind nicht adressierbar.
Chopper3