Wir haben ein RAID-6 mit 16 Laufwerken und drei problematischen Laufwerken. Zwei sind bereits tot und der dritte warnt SMART. (Vergiss nicht, wie es in einen so schlechten Zustand geriet.)
Natürlich wollen wir die toten Laufwerke vor dem noch funktionierenden austauschen, aber ist es besser:
Ersetzen Sie ein unbenutztes Laufwerk, lassen Sie das RAID neu erstellen, ersetzen Sie dann das andere und lassen Sie es erneut erstellen. oder
Ersetzen Sie beide Laufwerke gleichzeitig und lassen Sie beide gleichzeitig neu erstellen?
Um es anders auszudrücken: Werden wir durch die Wiedereinführung von ein oder zwei Laufwerken schneller zu einem Zustand der Redundanz zurückkehren? Verlangsamt die parallele Wiederherstellung von zwei Laufwerken den Wiederherstellungsprozess?
Falls es darauf ankommt, ist der Controller ein 3ware 9650SE-16ML.
quelle
Antworten:
!!!!! EINS !!!!!
Tun Sie eins nach dem anderen, ernsthafter Typ, denken Sie nicht daran, dies auf eine andere Art und Weise zu tun.
Alles andere wird Ihre Fähigkeiten zur vollständigen Systemwiederherstellung auf die Probe stellen.
quelle
Haben Sie gute, aktuelle Backups? Wenn nicht, denken Sie, können Sie sie in angemessener Zeit bekommen?
Ich würde mir ehrlich gesagt mehr Sorgen machen, das fehlerhafte Laufwerk während einer Wiederherstellung offline zu schalten als alles andere. Wenn Sie bereits SMART-Fehler auslösen, sind Sie mehr als auf halbem Weg.
Mein Vorschlag wäre, Ihre Sicherungen zu bestätigen und dann jeweils ein Laufwerk neu zu erstellen, um zu versuchen, einen Zustand wiederherzustellen, in dem Sie das ersetzen können, das SMART-Fehler verursacht (zuerst tote Laufwerke, zuletzt Soft-Fehler).
Wenn Sie keine Backups haben, handelt es sich um ein Mist-Shooting: Das Sichern kann genug weiche Fehler verursachen, um das marginale Laufwerk als ausgefallen zu markieren, ebenso wie der Versuch, ein Rebuild durchzuführen.
quelle
Ich sehe keinen Grund, es als "eine Festplatte pro Zeit" zu ändern.
Wenn RAID in der Lage ist, beide Festplatten gleichzeitig zu "resilvern" ( was ohnehin fehlgeschlagen ist ), gewinnen Sie natürlich nur , wenn das gesamte RAID wieder in der Lage ist, bis zu zwei Ausfälle schneller zu überstehen .
quelle
Meine 0.02. $
Da der Server bereits offline ist, führen Sie ddrescue auf dem Laufwerk aus, dessen Ausfall bevorsteht, um es auf ein anderes, vernünftiges Laufwerk zu klonen.
Legen Sie dann stattdessen das neue, vernünftige Laufwerk in das Array ein. Wenn das Klonen erfolgreich ist, vermeiden Sie das Risiko, dass dieses Laufwerk während zweier Neuerstellungen ausfällt.
quelle