Wiederherstellung von einem punktierten RAID-Array

10

Hier ist meine Situation.

Ich habe einen Dell Server mit einem Dell Perc 7i-Controller (LSI-Controller).

Ich hatte ein Laufwerk, das mir eine Warnung zu Fehlervorhersagen gab, also rief ich den Support an und sie kamen heraus und ersetzten das Laufwerk und das Array selbst, ziemlich normal.

Zwei Wochen später habe ich ein weiteres Laufwerk, das mir die Warnung "Fehler vorhergesagt" gibt. Ich dachte, es wäre vielleicht eine schlechte Menge an Laufwerken oder Zufällen usw. Also kontaktiere ich den Support und schaue genauer hin. Mir ist klar, dass auf einem der anderen Laufwerke fehlerhafte Blöcke vorhanden waren, die nicht ausgefallen sind, und diese fehlerhaften Blöcke wurden während der Neuerstellung kopiert. Jetzt habe ich überall schlechte Blöcke und sie töten langsam mein Array. Ich habe festgestellt, dass dies als punktiertes Array bezeichnet wird.

Sie rieten daher, alle Laufwerke auszutauschen, das Array neu zu erstellen und aus dem Backup wiederherzustellen. Außer, dass ich dieses Problem seit ein paar Wochen habe, was bedeutet, dass meine Backups schlecht sind ... und wenn ich von einem Backup von vor (vor einem Monat) wiederherstelle, fehlen mir Daten aus meiner Datenbank im Wert von ungefähr 4 Wochen ist für unser Büro völlig inakzeptabel.

Meine Frage ist ... hat sich jemals jemand von so etwas erholt, ohne Daten verlieren zu müssen oder ohne den ganzen Ansatz (alles aus dem Fenster werfen und von vorne anfangen)?

Ich habe einen Link gefunden, der mein Szenario abdeckt, nicht sicher, ob er Aufschluss über die Situation gibt: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Jede Hilfe oder Anleitung wäre dankbar! Was denkt ihr?

user72593
quelle

Antworten:

15

Ich gehe davon aus, dass Ihr System noch in Betrieb ist. Am besten erstellen Sie sofort eine Sicherungskopie, sichern die Festplatten / das Array, erstellen sie neu und stellen sie aus der Sicherung wieder her.

Schlechte Blöcke bedeuten nicht immer, dass Ihre Backups auch schlecht sind. Wenn bei Ihnen keine Leistungsprobleme oder beschädigten Dateien aufgetreten sind, sollten Ihre Sicherungen dennoch vollständig genug sein, um eine Wiederherstellung abzuschließen.

Nehmen Sie zum Testen Ihr aktuelles Backup und überprüfen Sie Ihre wichtigsten Daten. Wenn es noch intakt ist, haben Sie wahrscheinlich ein gutes Backup.

Zu diesem Zeitpunkt besteht ein Risiko, da Sie nicht 100% sicher sein können, dass Ihre Sicherungen gut sind oder dass die Sicherung jetzt keinen Dateiverlust verursacht. Ihr Array wird jedoch irgendwann fehlschlagen und trotzdem eine Wiederherstellung erzwingen. Dies ist also Ihre einzige echte Option.

Nathan C.
quelle
Ich verstehe, im Moment scheint alles gut zu funktionieren. Wenn ich jetzt in der Lage bin, eine vollständige Sicherung meines Systems zu erstellen und die Laufwerke auszutauschen, das Array neu zu erstellen und die vollständige Sicherung wiederherzustellen ... riskiere ich, dass dieser Fehler erneut auftritt? Oder ist es besser, das Betriebssystem und die Software neu zu installieren und nur Datenbanken wiederherzustellen, um das Risiko zu minimieren?
user72593
Auf Dateiebene treten normalerweise keine fehlerhaften Blöcke auf. Ich würde dies nur tun, wenn Sie beschädigte Dateien gefunden haben.
Nathan C
@ NathanC Sie erhalten keine "fehlerhaften Blöcke", Sie erhalten beschädigte Daten.
James Ryan
@ user72593 Nur weil Sie die Dateien heute sichern können, heißt das nicht, dass ihnen keine Teile fehlen. Der einzige Weg zu sehen, was gut ist oder nicht, besteht darin, es mit den Backups zu vergleichen.
James Ryan
1
@JamesRyan Die "fehlerhaften Blöcke" können sich an einer beliebigen Stelle auf der Festplatte befinden, einschließlich Swap, temporären Dateien oder zuvor verwendetem, aber jetzt nicht verwendetem Speicherplatz. Wenn ein Laufwerk fehlerhafte Blöcke aufweist, bedeutet dies nicht immer, dass Daten verloren gegangen sind.
Nathan C
8

Gehen Sie in diesem Moment wie folgt vor:

  • Stoppen Sie das Drehen von Backups oder das Löschen alter Backups für dieses System. Sie möchten alle Backups behalten, die Sie derzeit haben.
  • Erstellen Sie eine vollständige Sicherung des Servers.

Hoffentlich sind die Festplatten immer noch gut genug, damit Ihre Daten intakt sind, und Sie werden keine Probleme beim Ausführen der neuen vollständigen Sicherung haben.

Verschrotten Sie dann diese Festplatten und erstellen Sie ein neues RAID-Array. Sobald dies fertig ist, versuchen Sie, das Backup wiederherzustellen, das Sie gerade erstellt haben. Mit etwas Glück ist das alles, was Sie tun müssen.

Wenn dies fehlschlägt, versuchen Sie es mit dem nächstältesten und dem nächstältesten usw. Testen Sie unbedingt die Funktionalität des Systems - nur weil es startet, bedeutet dies nicht, dass es voll funktionsfähig ist. Testen Sie insbesondere die Datenbanken auf Beschädigungen.

Wenn Sie das gesamte System von einem älteren Backup wiederherstellen mussten, ist das in Ordnung. Nehmen Sie die neuesten Sicherungen und stellen Sie nur die Datenbankdateien und andere wichtige Dateien wieder her. Testen Sie sie, um sicherzustellen, dass sie ordnungsgemäß funktionieren. Wenn dies fehlschlägt, versuchen Sie es erneut mit dem nächstältesten.

Die Verwendung dieses Prozesses minimiert den Datenverlust.

Gewähren
quelle
Ich sehe, das beantwortet meine Frage. Solange mein Backup intakt ist, bin ich gut, wenn nicht, dann ... muss ich mich darum kümmern. Vielen Dank.
user72593
4

Die Antworten von Grant und Nathan C sind großartig in Bezug darauf, wie Sie beim Sichern / Wiederherstellen und beim Behandeln der Datenintegrität vorgehen sollten.

Im Folgenden finden Sie einige klarere Informationen zum Umgang mit dem RAID-Satz, wenn die virtuelle Festplatte neu erstellt und aus dem Backup wiederhergestellt werden soll:

  • Stellen Sie sicher, dass Sie eine gute Sicherung der Daten haben
  • Löschen Sie die vorhandene virtuelle Festplatte. Alle Festplatten sollten danach in einem "Bereit" -Zustand angezeigt werden
  • Erstellen Sie eine neue virtuelle Festplatte neu. Empfohlene Einstellungen: Adaptives Vorauslesen, Zurückschreiben und Festplatten-Caching deaktiviert
  • Sie sollten über eine virtuelle Online-Festplatte mit einer laufenden Hintergrundinitialisierung verfügen.
  • Fahren Sie mit der Wiederherstellung aus dem Backup fort. Die Hintergrundinitialisierung läuft normalerweise bei 600 GB / h für 7,2-KB-Spindeln. Geben Sie dem Init also einen Vorsprung, wenn Ihre Sicherungswiederherstellung schneller ausgeführt werden kann. Andernfalls kann es bei Ihrer Sicherungssoftware zu Problemen mit der Schreiblatenz kommen, wenn während des Vorgangs kein neuer Speicherplatz verfügbar ist wiederherstellen.

Hinweis : Wenn Sie RAID5 verwendet haben, sollten Sie diesmal ernsthaft die Verwendung von RAID6 in Betracht ziehen. RAID5 ist für geschäftskritische Daten gemäß den aktuellen Best Practices des Industriestandards für ein Array dieser Größe nicht zuverlässig. SATA / NL-SAS-Festplatten mit großer Kapazität haben auch ein höheres Risiko, bei Neuerstellungen auf ein URE zu stoßen, was zu einem Reifenschaden wie dem führt, mit dem Sie es zu tun haben. RAID6 reduziert dieses Risiko erheblich und ist im Allgemeinen für kritische Daten mit derzeit verfügbaren Laufwerkskapazitäten akzeptabel.

JimNim
quelle