Wie kann ich nach einem Laufwerksfehler in einer RAID 5-Konfiguration eine Wiederherstellung durchführen?

15

Heute Morgen ist ein Laufwerk auf unserem Datenbankserver ausgefallen. Das Laufwerk-Array (3 Festplatten) wird in einer RAID 5-Konfiguration eingerichtet.

Während wir auf einen Laufwerkersatz warten, bereiten wir uns auf eine Wiederherstellungsstrategie vor. Benutzer arbeiten weiterhin am System, wenn auch sehr langsam (weiß nicht warum ??).

Wie installiert man das neue Laufwerk - werden die Daten für dieses Laufwerk automatisch aus der Parität wiederhergestellt, oder gibt es einen anderen Prozess, den wir befolgen sollten?

Bearbeiten: Dies ist ein Hardware-RAID-Controller. (Danke für die bisherigen Antworten, danke)

Philip Fourie
quelle
4
Übrigens ist die Zeit, um zu entscheiden, was zu tun ist, wenn ein Laufwerk auf einem kritischen Server ausfällt, bevor ein Laufwerk auf einem kritischen Server ausfällt.
David Schwartz

Antworten:

15

Das System läuft sehr langsam, da es die fehlenden Daten, die zusätzliche CPU und E / A erfordern, rekonstruieren muss.

Wenn in einer RAID-5-Konfiguration eine Festplatte fehlt, gibt es keine Wiederherstellungsstrategie . Wenn eine andere Festplatte ausfällt, gehen Ihre Daten verloren . Laufen Sie nicht zu Fuß zum nächstgelegenen Händler, von dem Sie ein kompatibles Teil erhalten, für das die Herstellergarantie gilt, und das von einem Eilkurier am selben Tag versandt wird. Wenn der Anbieter, bei dem Sie das Array gekauft haben, bereits dabei ist, das Teil zu beschaffen, holen Sie sich beide Teile und verstauen Sie das andere als Ersatzteil.

Wenn Sie ein RAID-5-System für ein Produktionssystem verwenden, sollten Sie in Betracht ziehen, eine Ersatzfestplatte im Array als Ersatzlaufwerk zu belassen.

Hinzugefügt - Wenn sich Ihre Protokolle nicht auf einem separaten Volume befinden (physisch getrennte Datenträger), verschieben Sie sie auf einen separaten Satz von Datenträgern, auch nur auf ein einzelnes gespiegeltes Paar. Dies ist auch ein Leistungsgewinn, wenn Ihre Datenbank stark ausgelastet ist, da Konflikte mit Protokollvolumes die Leistung überproportional beeinträchtigen.

Wenn dies möglich ist, können Sie Ihre Datenbank auch stabiler machen, indem Sie die folgenden Schritte ausführen:

  1. Fahren Sie die Datenbank herunter.
  2. Sichern Sie die Datenbank.
  3. Verschieben Sie die Protokolle auf einen physisch getrennten Satz von Datenträgern (stellen Sie sicher, dass Sie die Datenbank neu konfigurieren, damit sie weiß, wohin die Protokolle verschoben wurden).
  4. Starten Sie die Datenbank und die Anwendung neu.

Wenn Sie die Protokolle auf einem separaten Volume haben, können Sie die Sicherung wiederherstellen und einen Roll-Forward durchführen, wenn ein Festplattenfehler die Protokolle nicht beeinträchtigt. Datenbankprotokolle sollten sich unter anderem aus folgenden Gründen auf einem separaten Datenträger befinden:

  • Die Verwendungsmuster der Protokolle sind überwiegend sequentiell und hängen Protokolleinträge an das Ende der Datei an (die Datei ist praktisch ein Ringpuffer). Dies bedeutet, dass eine große Anzahl von Protokolleinträgen schnell ausgeschrieben werden kann, da nur eine geringe Suchaktivität für den Plattenkopf vorliegt.

  • Wenn physische Datenträger mit einer hohen Arbeitslast mit wahlfreiem Zugriff (z. B. Transaktionstabellen und -indizes) gemeinsam genutzt werden, werden sie überproportional verlangsamt, da die Head-Search-Aktivität die sequenziellen Schreibvorgänge unterbricht.

  • Es ist fast immer ein Leistungsgewinn, wenn die Protokolle auf einem separaten Volume gespeichert werden. Für Protokolle ist nur ein einzelnes gespiegeltes Paar erforderlich, um eine hohe Auslastung zu gewährleisten. Dies bedeutet, dass die Hardware dafür recht billig ist, sodass für einen großen Gewinn an Leistung und Zuverlässigkeit nur geringe Kosten anfallen.

  • Wenn Ihr Datenarray ausfällt, gehen die Protokolle nicht verloren. Wenn Sie über eine geeignete Sicherungsstrategie verfügen, können Sie diese aus der Sicherung wiederherstellen und über die Protokolle fortfahren. Dies bedeutet, dass ein ganzes Array auf dem Server ausfallen kann, ohne dass ein einzelner Fehler auftritt. Sowohl das Protokoll- als auch das Datenarray müssen gleichzeitig ausfallen, um Datenverlust zu verursachen.

Betroffen vonTunbridgeWells
quelle
Vielen Dank für die Antwort, die insbesondere erklärt, warum das System langsam läuft.
Philip Fourie
Spot on. Ich würde sogar vorschlagen, es herunterzufahren, bis Sie das Ersatzlaufwerk installiert haben. Wie Nigel sagt, haben Sie keine Wiederherstellungsstrategie. Verliere ein weiteres Laufwerk, verliere alles.
Stu Thompson
Hallo Nigel, danke, dass du dir die Zeit genommen und dein Fachwissen geteilt hast. Es ist in der Tat ein guter Rat. Ich werde später über das Ergebnis der Genesung berichten.
Philip Fourie
5

1) Sicherung.

Im Moment sind keine Daten verloren gegangen. Wenn Ihre Backups nicht auf dem neuesten Stand sind, sichern Sie sie jetzt.

2) Lesen Sie das Handbuch, wenden Sie sich an den Händler usw.

Unterschiedliche RAID-Systeme haben unterschiedliche Schritte zum Ersetzen einer Festplatte. Bei falscher Vorgehensweise besteht die Gefahr, dass das gesamte Array zerstört wird. Ohne zu wissen, über welche RAID-Hardware / -Software Sie verfügen, können wir nur die erforderlichen Schritte erraten.

Die langsame Leistung ist auch darauf zurückzuführen, dass RAID 5 in einem herabgesetzten Zustand (dh eine Festplatte ist tot) eine fürchterliche Leseleistung aufweist. Wie schrecklich das ist, hängt davon ab, wie die Parität gespeichert ist und welche Festplatte abgestorben ist. Die "gute" Nachricht ist jedoch, dass die Leistung mit einer Festplatte nur langsam ist. Dies ist ein bekanntes Problem und kein Grund zur Panik.

DrStalker
quelle
4

Zuerst würde ich das Handbuch für die Hardware / Software lesen, die Sie verwenden - den Abschnitt zur Fehlerbehebung :)

Sollte jedoch eine einfache Sache sein, die Festplatte zu ersetzen und das Array neu zu erstellen.

Der wichtigste Punkt in solchen Fällen ist, dass die Festplatte so schnell wie möglich ausgetauscht wird, da Sie wahrscheinlich Daten verlieren, wenn eine andere Festplatte ausfällt. Außerdem sollten Sie die Fehlerursache beheben - lag es daran, dass die Festplatte veraltet ist? Sollten Sie auch die anderen ersetzen? Oder war es ein Stromstoß, eine Hitze oder eine Vibration?


quelle
1
wahrscheinlich Daten verlieren? Auf jeden Fall alle Daten auf dem Array verlieren! Gehe ins Gefängnis, gehe nicht vorbei. (Sicherungen beiseite, natürlich.)
Stu Thompson
1

Soweit ich weiß, wird RAID5 beim Ersetzen des ausgefallenen Laufwerks automatisch anhand der auf den beiden anderen Laufwerken gespeicherten Informationen neu erstellt. Ob Sie das neue Laufwerk im laufenden Betrieb austauschen können, hängt von Ihrem System ab. Möglicherweise müssen Sie es zuerst ausschalten. In jedem Fall sollten Sie angesichts der relativ geringen Laufwerkskosten und der Bedeutung Ihrer Daten (die sich aus Ihrer Entscheidung für RAID5 ergibt) ein Ersatzlaufwerk in einer Schublade haben, das für eine solche Situation gerüstet ist .

Ich habe vor kurzem einen neuen Entwicklungs-PC für mich gebaut und die Hauptdatenlaufwerke unter RAID5 eingerichtet. Ich habe ein Laufwerk mehr bestellt als nötig, damit ich das Ersatzlaufwerk für diesen Notfall-Moment bereit habe. (Ich hoffe, dass es nicht passieren wird.)

Jetzt haben Sie die Frage gestellt, ich nehme an, ich sollte das Thema noch etwas genauer durchlesen.


quelle
Bei kleinen Datenmengen ist ein gespiegeltes Paar besser, da es in der Regel eine höhere sequenzielle Zugriffsgeschwindigkeit aufweist als ein kleines RAID-5. Wenn Sie einen Hot-Swap möchten, schauen Sie sich einige der Hot-Swap-Bay-Systeme an, wie beispielsweise scsi4me.com
ConcernedOfTunbridgeWells,
0

Völlig systemabhängig. Was steht in den Handbüchern? Unterstützt Ihre Hardware das Hotplugging neuer Laufwerke vom Controller in den Laufwerksschacht vollständig? Haben Sie aktuelle Backups?


quelle
0

Der Beitrag von NXC fasst es gut zusammen. Nur für den Fall, dass Sie das fehlerhafte Laufwerk nicht ersetzen, bevor das zweite Laufwerk ausfällt, besteht immer noch eine gute Chance, dass fast alles (manchmal alles) von einem spezialisierten Wiederherstellungsdienst wiederhergestellt wird. Die Daten befinden sich immer noch auf Datenträgern, und ausgefallene Datenträger können normalerweise in einem Speziallabor mit geeigneter Ausrüstung wieder zum Leben erweckt werden. Der Preis für diesen Service ist jedoch ziemlich hoch. Ein Ersatzlaufwerk und ordnungsgemäße Backups (gemäß dem Vorschlag von NXC) sind auf jeden Fall der richtige Weg für die Zukunft.


quelle