Wir haben einen alten HP DL380G5-Server mit 5 300-GB-SCSI-3,5-Zoll-Festplatten in einem RAID5-Array in einem externen Schacht, der als logisches Volume mit ext3-Dateisystem formatiert ist und 1,2 TB sensible Daten klinischer Patienten enthält.
Zwei Festplatten zeigten einen prädiktiven Fehler in hpacucli, daher habe ich zuerst eine davon ersetzt und festgestellt, dass sie in Ordnung ist, aber ich habe nicht gesehen, dass dort auch "Bereit zum Wiederherstellen" angegeben ist. Ich habe auch den zweiten völlig nachlässig geändert, und jetzt heißt es, dass das RAID fehlgeschlagen ist.
Ich habe die alte Festplatte zurückgegeben, versucht, den Server neu zu starten, aber jetzt bin ich beim Booten in den Wiederherstellungsmodus versetzt worden und habe festgestellt, dass das logische Volume nicht gefunden werden kann.
Was kann ich tun, um dies wiederherzustellen? Wir haben leider kein Backup. Jede Hilfe wäre wirklich dankbar!
Ich habe darüber nachgedacht, BEIDE alten Laufwerke zurückzugeben. Gibt es eine Chance, dass dies das RAID wiederbeleben würde?
Antworten:
Es tut mir Leid. Dies ist jedoch ein Bedienerfehler.
Sie hatten zwei fehlerhafte Festplatten in einem RAID5-Array und haben mehr Festplatten entfernt, als das Array aushalten konnte.
Dies ohne Backups zu tun, ist der größere Fehler.
Sie sollten sich an eine Datenrettungsfirma wenden, um zu versuchen, die Daten vom defekten logischen Laufwerk abzurufen.
quelle
Schalten Sie das System nicht wieder ein. Fahren Sie es herunter und rufen Sie einen Datenwiederherstellungsdienst an. Es gibt eine Reihe von Diensten, die die Remote-Wiederherstellung dieser Art von Fehler ermöglichen. An diesem Punkt können Sie es nur noch schlimmer machen.
Dies beinhaltet häufig das direkte Anschließen aller Laufwerke an einen bekanntermaßen funktionsfähigen HBA (keine RAID-Karte oder einen anderen Controller!) Und das Starten eines bestimmten herunterladbaren Linux-Images mit Remoteverwaltungstools. Das Unternehmen greift dann remote auf das System zu, bewertet den Festplattenstatus und stellt alle verbleibenden RAID-Metadaten wieder her. Mit proprietärer Software können sie eine virtuelle RAID-Festplatte wieder zusammenbauen (technisches Detail: häufig etwas, das in das Standard-Linux-Device-Mapper-System eingesteckt wird). Dadurch wird die schreibgeschützte RAID-Software verfügbar gemacht (ohne RAID-SoC-Beschleuniger). In den nächsten Schritten wird überprüft, ob die Daten nicht über die Verwendung hinaus beschädigt wurden, und die virtuelle Festplatte wird auf eine neue Festplatte geklont, um die Datenwiederherstellung abzuschließen. Danach können Sie sich Sorgen machen, dass das System wieder betriebsbereit ist.
Obwohl ich hier keine Dienste nennen werde, sind die meisten leicht zu finden und für diejenigen mit Remote-Diensten (Sie sparen sich den Hin- und Rücktransport der RAID-Laufwerke + Wiederherstellungslaufwerke und warten auf die Wiederherstellung + Klon und dann senden sie es zurück) Sie profitieren von den Daten, die Ihre Einrichtung nie verlassen.
Eine kleine Menge guter Nachrichten: Solange der RAID-Controller (oder Sie) keine neuen Daten auf eine der Festplatten geschrieben hat und die Pre-Fail-Warnung keine Fail-Warnung ist, besteht praktisch eine 99,9999% ige Chance Ein gutes Datenrettungsteam kann alles wiederherstellen, und das relativ schnell.
quelle
Betreff: Wiederherstellen der alten Laufwerke.
Da Ihr RAID in seiner jetzigen Form vollständig tot ist, haben Sie wenig zu verlieren, wenn Sie die beiden Pre-Fail-Laufwerke wieder einbauen.
Installieren Sie sie in den Originalschächten.
Denken Sie daran, dass sie nicht sofort fehlgeschlagen sind, sodass die Wahrscheinlichkeit groß ist, dass sie lange genug ausgeführt werden, um Ihre Daten zu retten.
Es besteht die Möglichkeit, dass der Raid einfach nicht ausgeführt wird, und eine kleine Chance, dass der Controller den Raid "zurücksetzt" (wählen Sie NO / CANCEL), und eine winzige Chance, dass der Raid-Controller den Raid automatisch zurücksetzt, wodurch ein Wert negiert wird von einer Datenrettungsfirma hinzugefügt.
Wenn das RAID gestartet wird, ist es Ihre oberste Priorität, die Daten auszuschalten. Das bedeutet, dass mindestens 1,2 TB Speicherplatz verfügbar und bereit sind, Daten zu kopieren, und dass ein Tool wie
robocopy
oderxcopy32
oder in Ihrem Linux-Fallrsync
betriebsbereit ist. Sie möchten keine Zeit damit verschwenden, Manpages zu lesen und die Syntax herauszufinden, wenn Ihre Laufwerke ihre letzten Minuten verschwenden.Sobald Ihre Daten sicher sind, erstellen Sie den RAID als RAID6 mit den neuen Laufwerken neu. Sie verlieren 300 GB Kapazität, erhalten jedoch eine Toleranz von zwei Laufwerken. Oder fügen Sie ein zusätzliches Laufwerk hinzu und ziehen Sie einen Raid10 über 6 Laufwerke in Betracht. Oder ziehen Sie in Betracht, diese Maschine vollständig außer Betrieb zu setzen. Der G5 ist über 10 Jahre alt und eignet sich wirklich nicht mehr für wichtige Produktionsaufgaben.
Und versuchen Sie nicht, den Boot zu starten, sondern richten Sie auch eine geeignete Backup-Lösung ein. Es wird ein nächstes Mal geben.
quelle