Heute Morgen ist ein Laufwerk auf unserem Datenbankserver ausgefallen. Das Laufwerk-Array (3 Festplatten) wird in einer RAID 5-Konfiguration eingerichtet.
Während wir auf einen Laufwerkersatz warten, bereiten wir uns auf eine Wiederherstellungsstrategie vor. Benutzer arbeiten weiterhin am System, wenn auch sehr langsam (weiß nicht warum ??).
Wie installiert man das neue Laufwerk - werden die Daten für dieses Laufwerk automatisch aus der Parität wiederhergestellt, oder gibt es einen anderen Prozess, den wir befolgen sollten?
Bearbeiten: Dies ist ein Hardware-RAID-Controller. (Danke für die bisherigen Antworten, danke)
hardware
disaster-recovery
raid5
drive-failure
Philip Fourie
quelle
quelle
Antworten:
Das System läuft sehr langsam, da es die fehlenden Daten, die zusätzliche CPU und E / A erfordern, rekonstruieren muss.
Wenn in einer RAID-5-Konfiguration eine Festplatte fehlt, gibt es keine Wiederherstellungsstrategie . Wenn eine andere Festplatte ausfällt, gehen Ihre Daten verloren . Laufen Sie nicht zu Fuß zum nächstgelegenen Händler, von dem Sie ein kompatibles Teil erhalten, für das die Herstellergarantie gilt, und das von einem Eilkurier am selben Tag versandt wird. Wenn der Anbieter, bei dem Sie das Array gekauft haben, bereits dabei ist, das Teil zu beschaffen, holen Sie sich beide Teile und verstauen Sie das andere als Ersatzteil.
Wenn Sie ein RAID-5-System für ein Produktionssystem verwenden, sollten Sie in Betracht ziehen, eine Ersatzfestplatte im Array als Ersatzlaufwerk zu belassen.
Hinzugefügt - Wenn sich Ihre Protokolle nicht auf einem separaten Volume befinden (physisch getrennte Datenträger), verschieben Sie sie auf einen separaten Satz von Datenträgern, auch nur auf ein einzelnes gespiegeltes Paar. Dies ist auch ein Leistungsgewinn, wenn Ihre Datenbank stark ausgelastet ist, da Konflikte mit Protokollvolumes die Leistung überproportional beeinträchtigen.
Wenn dies möglich ist, können Sie Ihre Datenbank auch stabiler machen, indem Sie die folgenden Schritte ausführen:
Wenn Sie die Protokolle auf einem separaten Volume haben, können Sie die Sicherung wiederherstellen und einen Roll-Forward durchführen, wenn ein Festplattenfehler die Protokolle nicht beeinträchtigt. Datenbankprotokolle sollten sich unter anderem aus folgenden Gründen auf einem separaten Datenträger befinden:
Die Verwendungsmuster der Protokolle sind überwiegend sequentiell und hängen Protokolleinträge an das Ende der Datei an (die Datei ist praktisch ein Ringpuffer). Dies bedeutet, dass eine große Anzahl von Protokolleinträgen schnell ausgeschrieben werden kann, da nur eine geringe Suchaktivität für den Plattenkopf vorliegt.
Wenn physische Datenträger mit einer hohen Arbeitslast mit wahlfreiem Zugriff (z. B. Transaktionstabellen und -indizes) gemeinsam genutzt werden, werden sie überproportional verlangsamt, da die Head-Search-Aktivität die sequenziellen Schreibvorgänge unterbricht.
Es ist fast immer ein Leistungsgewinn, wenn die Protokolle auf einem separaten Volume gespeichert werden. Für Protokolle ist nur ein einzelnes gespiegeltes Paar erforderlich, um eine hohe Auslastung zu gewährleisten. Dies bedeutet, dass die Hardware dafür recht billig ist, sodass für einen großen Gewinn an Leistung und Zuverlässigkeit nur geringe Kosten anfallen.
Wenn Ihr Datenarray ausfällt, gehen die Protokolle nicht verloren. Wenn Sie über eine geeignete Sicherungsstrategie verfügen, können Sie diese aus der Sicherung wiederherstellen und über die Protokolle fortfahren. Dies bedeutet, dass ein ganzes Array auf dem Server ausfallen kann, ohne dass ein einzelner Fehler auftritt. Sowohl das Protokoll- als auch das Datenarray müssen gleichzeitig ausfallen, um Datenverlust zu verursachen.
quelle
1) Sicherung.
Im Moment sind keine Daten verloren gegangen. Wenn Ihre Backups nicht auf dem neuesten Stand sind, sichern Sie sie jetzt.
2) Lesen Sie das Handbuch, wenden Sie sich an den Händler usw.
Unterschiedliche RAID-Systeme haben unterschiedliche Schritte zum Ersetzen einer Festplatte. Bei falscher Vorgehensweise besteht die Gefahr, dass das gesamte Array zerstört wird. Ohne zu wissen, über welche RAID-Hardware / -Software Sie verfügen, können wir nur die erforderlichen Schritte erraten.
Die langsame Leistung ist auch darauf zurückzuführen, dass RAID 5 in einem herabgesetzten Zustand (dh eine Festplatte ist tot) eine fürchterliche Leseleistung aufweist. Wie schrecklich das ist, hängt davon ab, wie die Parität gespeichert ist und welche Festplatte abgestorben ist. Die "gute" Nachricht ist jedoch, dass die Leistung mit einer Festplatte nur langsam ist. Dies ist ein bekanntes Problem und kein Grund zur Panik.
quelle
Zuerst würde ich das Handbuch für die Hardware / Software lesen, die Sie verwenden - den Abschnitt zur Fehlerbehebung :)
Sollte jedoch eine einfache Sache sein, die Festplatte zu ersetzen und das Array neu zu erstellen.
Der wichtigste Punkt in solchen Fällen ist, dass die Festplatte so schnell wie möglich ausgetauscht wird, da Sie wahrscheinlich Daten verlieren, wenn eine andere Festplatte ausfällt. Außerdem sollten Sie die Fehlerursache beheben - lag es daran, dass die Festplatte veraltet ist? Sollten Sie auch die anderen ersetzen? Oder war es ein Stromstoß, eine Hitze oder eine Vibration?
quelle
Soweit ich weiß, wird RAID5 beim Ersetzen des ausgefallenen Laufwerks automatisch anhand der auf den beiden anderen Laufwerken gespeicherten Informationen neu erstellt. Ob Sie das neue Laufwerk im laufenden Betrieb austauschen können, hängt von Ihrem System ab. Möglicherweise müssen Sie es zuerst ausschalten. In jedem Fall sollten Sie angesichts der relativ geringen Laufwerkskosten und der Bedeutung Ihrer Daten (die sich aus Ihrer Entscheidung für RAID5 ergibt) ein Ersatzlaufwerk in einer Schublade haben, das für eine solche Situation gerüstet ist .
Ich habe vor kurzem einen neuen Entwicklungs-PC für mich gebaut und die Hauptdatenlaufwerke unter RAID5 eingerichtet. Ich habe ein Laufwerk mehr bestellt als nötig, damit ich das Ersatzlaufwerk für diesen Notfall-Moment bereit habe. (Ich hoffe, dass es nicht passieren wird.)
Jetzt haben Sie die Frage gestellt, ich nehme an, ich sollte das Thema noch etwas genauer durchlesen.
quelle
Völlig systemabhängig. Was steht in den Handbüchern? Unterstützt Ihre Hardware das Hotplugging neuer Laufwerke vom Controller in den Laufwerksschacht vollständig? Haben Sie aktuelle Backups?
quelle
Der Beitrag von NXC fasst es gut zusammen. Nur für den Fall, dass Sie das fehlerhafte Laufwerk nicht ersetzen, bevor das zweite Laufwerk ausfällt, besteht immer noch eine gute Chance, dass fast alles (manchmal alles) von einem spezialisierten Wiederherstellungsdienst wiederhergestellt wird. Die Daten befinden sich immer noch auf Datenträgern, und ausgefallene Datenträger können normalerweise in einem Speziallabor mit geeigneter Ausrüstung wieder zum Leben erweckt werden. Der Preis für diesen Service ist jedoch ziemlich hoch. Ein Ersatzlaufwerk und ordnungsgemäße Backups (gemäß dem Vorschlag von NXC) sind auf jeden Fall der richtige Weg für die Zukunft.
quelle