Areca 1280ml RAID6-Volume-Set fehlgeschlagen

10

Heute haben wir eine Art Worst-Case-Szenario und sind offen für jede Art von guten Ideen.

Hier ist unser Problem:

Wir verwenden mehrere dedizierte Speicherserver, um unsere virtuellen Maschinen zu hosten. Bevor ich fortfahre, sind hier die Spezifikationen:

  • Dedizierte Servermaschine
  • Areca 1280ml RAID-Controller, Firmware 1.49
  • 12x Samsung 1 TB Festplatten

Wir haben ein RAID6-Set mit 10 Discs konfiguriert, das ein logisches Volume enthält. Wir haben zwei Ersatzteile im System.

Heute ist eine Festplatte ausgefallen. Dies passiert von Zeit zu Zeit, deshalb haben wir es ersetzt. Beim Wiederherstellen ist eine zweite CD fehlgeschlagen. Normalerweise macht das keinen Spaß. Wir haben schwere E / A-Operationen gestoppt, um eine stabile RAID-Wiederherstellung zu gewährleisten.

Leider ist die Hot-Spare-Disc beim Wiederaufbau ausgefallen und das Ganze hat aufgehört.

Jetzt haben wir folgende Situation:

  • Der Controller sagt, dass das RAID-Set neu erstellt wird
  • Der Controller sagt, dass die Lautstärke fehlgeschlagen ist

Da es sich um ein RAID 6-System handelt und zwei Datenträger ausgefallen sind, müssen die Daten intakt sein, aber wir können das Volume nicht wieder online schalten, um auf die Daten zuzugreifen.

Bei der Suche haben wir folgende Hinweise gefunden. Ich weiß nicht, ob sie gut oder schlecht sind:

  1. Spiegeln aller Discs auf einen zweiten Satz Laufwerke. Wir hätten also die Möglichkeit, verschiedene Dinge auszuprobieren, ohne mehr zu verlieren, als wir bereits haben.

  2. Versuch, das Array in R-Studio neu zu erstellen. Wir haben jedoch keine wirklichen Erfahrungen mit der Software.

  3. Ziehen Sie alle Laufwerke, starten Sie das System neu, wechseln Sie in das Areca-Controller-BIOS und setzen Sie die Festplatten einzeln wieder ein. Einige Leute sagen, dass das System dadurch online geschaltet wurde. Einige sagen, dass der Effekt Null ist. Einige sagen, dass sie die ganze Sache vermasselt haben.

  4. Verwenden von undokumentierten Areca-Befehlen wie "Rettung" oder "LeVel2ReScUe".

  5. Kontaktaufnahme mit einem Computerforensikdienst. Aber whoa ... primäre Schätzungen per Telefon überstiegen 20.000 €. Deshalb bitten wir Sie um Hilfe. Vielleicht fehlt uns das Offensichtliche?

Und ja, natürlich haben wir Backups. Einige Systeme haben jedoch eine Woche Daten verloren. Deshalb möchten wir das System wieder in Betrieb nehmen.

Jede Hilfe, Anregungen und Fragen sind herzlich willkommen.

Richard
quelle
3
Ich würde argumentieren, dass Ihr erster Schritt, was auch immer Sie tun, ein ddSpiegel aller Festplatten sein sollte, nur um mehr Schaden zu vermeiden und einen Fallback-Plan zu haben, wenn Sie an einer echten Lösung arbeiten.
Sven
Wir werden das tun ...
Richard
1
Was ist mit den Hotspares?
Cawflands
1
Können Sie sich an den Anbieter wenden, um Unterstützung zu erhalten? Angenommen, Sie können nicht (und Sie haben dd verwendet, um alles zu spiegeln, gemäß dem hervorragenden Vorschlag von @ SvenW), warum nicht die ausgefallenen Laufwerke ersetzen, neu starten und sehen, was passiert? Ich würde nicht unbedingt alle Laufwerke ziehen, nur die ausgefallenen. Aber wirklich, Ihre erste Wette ist der Anbieter, sie verstehen ihre Software.
Jeremy
Haben Sie eine Lösung gefunden? Wenn ja, lassen Sie uns bitte wissen, was es für zukünftige Referenz war!
Grant

Antworten:

2

Ich denke, Option 1. ist Ihr Bestes.

Nehmen Sie 12x neue Festplatten und 1x neuen RAID-Controller. Versuchen Sie, alte Festplatten mit einer beliebigen Linux-Box 1: 1 auf die neuen zu spiegeln (dd if = of =). Erstellen Sie einen neuen Server mit dem 1x neuen RAID-Controller und den 12x neuen Festplatten

Versuchen Sie, das Array auf dem neuen Server neu zu erstellen. Erfolg? Groß. Halt.
Wiederaufbau fehlgeschlagen? Spiegeln Sie die alten Festplatten erneut auf neue und versuchen Sie es mit Option i + 1

cipy
quelle
0

Dies ist leider ein sehr häufiges Szenario. Vor Jahren gab es eine gute Google-Studie, und es stellte sich heraus, dass beim Wiederherstellen des Arrays Daten mit RAID verloren gehen können. Dies kann sich auf verschiedene RAID-Systeme mit unterschiedlichem Schweregrad auswirken. Hier ist das RAID6-Szenario:

  • Ihr Array verfügt über 3 Daten- und 2 Paritätsfestplatten.
  • Wenn Sie eine Festplatte verlieren, ist sichergestellt, dass alle Daten wiederhergestellt werden können.
  • Wenn Sie 2 Festplatten verlieren, haben Sie Daten verloren

Warum das?

Denken Sie an Folgendes: Lassen Sie einige Daten haben, nehmen Sie an, dass die ersten 3 Blöcke einer Datei die folgenden Datenblöcke haben: A1 + A2 + A3 und die folgende Parität: Ap + Ap sitzt auf hdd1 ... hdd5

Wenn Sie zwischen 1 und 3 zwei Festplatten verlieren, haben Sie Daten verloren, weil die Daten nicht wiederhergestellt werden können. Sie haben 2 Paritäten und 1 Datenblock.

Jetzt mag das gleiche Szenario mit 10 Festplatten unterschiedlich sein, aber ich denke, es wurde genauso gehandhabt, wie Sie die Daten in 8 Blöcke aufteilen und die Parität auf 2 anderen Laufwerken speichern und 2 Hot-Spares haben. Kennen Sie die Details Ihrer RAID-Controller-Konfiguration?

Ich würde anfangen, mich von einer Offsite-Sicherung zu erholen (ich denke, Sie haben einige), und der Dienst ist zurück. Versuchen Sie, so viele Daten wie möglich wiederherzustellen, indem Sie Unix verwenden und die Laufwerke in Images umwandeln und sie beispielsweise als Loop-Gerät verwenden.

http://wiki.edseek.com/guide:mount_loopback

Sie müssen wissen, welche Art von Metadaten der RAID-Controller verwendet, und wenn Sie Glück haben, werden sie in einem Tool wie dmraid unterstützt.

Dies bedeutet jedoch nicht, dass Sie überhaupt Daten wiederherstellen können, da die Dateien normalerweise auf viele, viele Blöcke verteilt sind und die Wiederherstellung wahrscheinlich keine Ihrer Daten zurückbringt.

Mehr über RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

Istvan
quelle