Ich verstehe das Argument bezüglich der erhöhten Wahrscheinlichkeit, dass bei größeren Laufwerken während einer Wiederherstellung eine URE auftritt. Ich bin mir jedoch nicht sicher, welche tatsächlichen Auswirkungen dies haben wird. Diese Antwort besagt, dass die gesamte Neuerstellung fehlschlägt. Bedeutet dies jedoch, dass auf alle Daten nicht zugegriffen werden kann? Warum sollte das so sein? Sicherlich würde eine einzelne URE von einem einzelnen Sektor auf dem Laufwerk höchstens die Daten betreffen, die sich auf einige wenige Dateien beziehen. Wäre das Array nicht immer noch neu aufgebaut, nur mit einigen geringfügigen Beschädigungen an einigen Dateien?
(Ich bin speziell an der Implementierung von RAID5 durch ZFS interessiert, aber die Logik scheint bei jeder RAID5-Implementierung dieselbe zu sein.)
quelle
Antworten:
Es hängt wirklich von der spezifischen RAID-Implementierung ab:
Bei den meisten Hardware-RAIDs wird die Rekonstruktion abgebrochen, und bei einigen wird das Array als fehlerhaft markiert , wodurch es heruntergefahren wird. Der Grund ist , dass , wenn ein URE während eines RAID5 passiert es wieder aufzubauen bedeutet , dass einige Daten sind verloren, so dass es besser ist, vollständig das Array zu stoppen eher , dass stille Datenkorruption zu riskieren. Hinweis: Einige Hardware-RAIDs (hauptsächlich auf LSI-Basis) durchstoßen stattdessen das Array, sodass die Neuerstellung fortgesetzt werden kann, während der betroffene Sektor als nicht lesbar markiert wird (ähnlich wie Linux-Software-RAIDs).
Linux-Software-RAID kann angewiesen werden, a) den Array-Neuaufbau zu stoppen (das einzige Verhalten von "alten" MDRAID- / Kernel-Builds) oder b) mit dem Neuaufbau fortzufahren und einige LBAs als fehlerhaft / unzugänglich zu markieren. Das Grundprinzip ist, dass es besser ist, den Benutzer seine Wahl treffen zu lassen: Schließlich kann sich eine einzelne URE auf freiem Speicherplatz befinden, ohne dass Daten betroffen sind (oder nur unwichtige Dateien).
ZRAID zeigt einige Dateien als beschädigt an, setzt jedoch den Neuerstellungsprozess fort (siehe hier für ein Beispiel). Das Grundprinzip ist wiederum, dass es besser ist, fortzufahren und dem Benutzer Bericht zu erstatten, damit er eine fundierte Entscheidung treffen kann.
quelle
Wenn URE auftritt, treten im gesamten Block Datenbeschädigungen auf, die normalerweise zwischen 256 KB und 1 MB groß sind. Dies bedeutet jedoch nicht, dass ALLE Daten auf Ihrem Volume verloren gehen. Was an RAID5 nicht so toll ist, ist eine ganz andere Sache: Die Neuerstellung selbst ist stressig und es besteht eine hohe Wahrscheinlichkeit, dass die zweite Festplatte in Folge ausfällt. In einem solchen Fall würden alle Daten verloren gehen.
quelle
Ich würde es anders herum erklären;
Was kann passieren, wenn der RAID-Controller auf URE nicht stoppt?
Ich habe es auf einem Server gelebt, das RAID hat die URE nie bemerkt und nach dem Neuaufbau begann sich eine Beschädigung auf dem gesamten RAID-Volume aufzubauen.
Die Festplatte wurde nach dem Wiederherstellen immer fehlerhafter und die Daten wurden beschädigt.
Der Datenträger wurde nie vom RAID-Volume geworfen. Der Controller-Fehler dient zum Schutz der Datenintegrität.
Dieses Beispiel soll Sie darauf hinweisen, dass ein Controller ein Volume überhaupt nicht mit URE betreiben kann, da es sich nicht um ein Backup handelt, sondern um eine Ausfallsicherung für einen Festplattenfehler
quelle
Ich würde vorschlagen, diese Frage und die Antworten zu lesen, um ein wenig mehr Hintergrundwissen zu erhalten. Dann lesen Sie die Frage, mit der Sie verknüpft sind, noch einmal durch.
Wenn jemand über diese Situation sagt, dass "das RAID fehlgeschlagen ist", bedeutet dies, dass Sie den Vorteil des RAID verloren haben - Sie haben den kontinuierlichen Zugriff auf Daten verloren, der der Grund war, warum Sie das RAID-Array überhaupt eingerichtet haben.
Sie haben nicht alle Daten verloren, aber die gängigste Methode zur Wiederherstellung nach einem Laufwerksausfall plus (einigen) UREs auf (einigen) verbleibenden Laufwerken besteht darin, das Array von Grund auf neu zu erstellen. Dies bedeutet, dass alle Daten wiederhergestellt werden aus dem Backup.
quelle