Wir haben einen Dell PowerEdge T410-Server mit CentOS und einem RAID-5-Array mit 5 Seagate Barracuda 3 TB SATA-Festplatten. Gestern ist das System abgestürzt (ich weiß nicht wie genau und ich habe keine Protokolle).
Beim Hochfahren des RAID-Controller-BIOS stellte ich fest, dass von den 5 Laufwerken Laufwerk 1 als "nicht vorhanden" und Laufwerk 3 als "beeinträchtigt" gekennzeichnet war. Ich habe die Sicherung von Festplatte 3 erzwungen und Festplatte 1 durch eine neue Festplatte (mit derselben Größe) ersetzt. Das BIOS hat dies erkannt und mit der Neuerstellung von Datenträger 1 begonnen - der Datenträger blieb jedoch bei% 1 hängen. Die Spinnfortschrittsanzeige bewegte sich nicht die ganze Nacht; total gefroren.
Welche Möglichkeiten habe ich hier? Gibt es eine Möglichkeit zum Wiederherstellen, abgesehen von einem professionellen Datenwiederherstellungsdienst? Wie könnten zwei Festplatten gleichzeitig so ausfallen? Scheint zu zufällig. Ist es möglich, dass Datenträger 1 ausgefallen ist und infolgedessen Datenträger 3 nicht mehr synchron ist? Wenn ja, gibt es ein Dienstprogramm, mit dem ich es wieder "synchronisieren" kann?
quelle
Antworten:
Nachdem Sie eine schlechte Antwort akzeptiert haben, tut mir meine ketzerische Meinung sehr leid (die solche Arrays bereits mehrfach gespeichert hat).
Ihre zweite ausgefallene Festplatte weist wahrscheinlich ein geringfügiges Problem auf, möglicherweise einen Blockfehler. Dies ist die Ursache, warum das fehlerhafte Synchronisierungstool Ihrer fehlerhaften raid5-Firmware darauf abgestürzt ist.
Sie können problemlos eine Kopie auf Sektorebene mit einem Low-Level-Tool zum Klonen von Datenträgern erstellen (z. B. ist gddrescue wahrscheinlich sehr nützlich) und diesen Datenträger als neuen Datenträger3 verwenden. In diesem Fall hat Ihr Array mit einer geringfügigen Datenbeschädigung überlebt.
Es tut mir leid, wahrscheinlich ist es zu spät, denn das Wesen der orthodoxen Antwort in diesem Fall: "Mehrfachversagen bei einem Überfall5, hier ist die Apokalypse!"
Wenn Sie ein sehr gutes, redundantes RAID wollen, verwenden Sie Software-RAID unter Linux. Zum Beispiel ist sein RAID-Superblock-Datenlayout öffentlich und dokumentiert ... Es tut mir wirklich leid, für meine dies eine andere ketzerische Meinung.
quelle
Sie haben einen Doppelplattenfehler. Dies bedeutet, dass Ihre Daten nicht mehr vorhanden sind und Sie eine Wiederherstellung von einem Backup durchführen müssen. Aus diesem Grund sollten wir RAID 5 nicht für große Festplatten verwenden. Sie möchten Ihr Raid so einrichten, dass Sie immer in der Lage sind, zwei Datenträgerausfälle zu überstehen, insbesondere bei großen langsamen Datenträgern.
quelle
Ihre Möglichkeiten sind:
quelle
Gleichzeitiges Versagen ist aus den von anderen genannten Gründen möglich oder sogar wahrscheinlich. Die andere Möglichkeit ist, dass eine der Festplatten vor einiger Zeit ausgefallen ist und Sie sie nicht aktiv überprüft haben.
Stellen Sie sicher, dass Ihre Überwachung ein RAID-Volume, das im herabgesetzten Modus ausgeführt wird, sofort erkennt. Möglicherweise haben Sie keine Option erhalten, aber es ist nie gut, diese Dinge aus dem BIOS lernen zu müssen.
quelle
Um zu antworten: "Wie könnten zwei Festplatten gleichzeitig so ausfallen?" Genau, ich möchte aus diesem Artikel zitieren :
RAID5 war also 2009 unsicher. RAID6 wird es auch bald sein. Bei RAID1 habe ich angefangen, sie aus 3 Festplatten zu machen. RAID10 mit 4 Festplatten ist ebenfalls prekär.
quelle
Der Thread ist alt. Wenn Sie jedoch lesen, überprüfen Sie das Alter der Laufwerke, wenn ein Laufwerk in einem RAID-Array ausfällt. Wenn Sie mehrere Festplatten in einem RAID-Array haben und diese älter als 4-5 Jahre sind, ist die Wahrscheinlichkeit groß, dass eine andere Festplatte ausfällt. *** Machen Sie ein Bild oder eine Sicherungskopie **, bevor Sie fortfahren. Wenn Sie glauben, ein Backup zu haben, testen Sie es, um sicherzustellen, dass Sie es lesen und wiederherstellen können.
Der Grund dafür ist, dass die verbleibenden Laufwerke jahrelang normalem Verschleiß ausgesetzt sind und sich stundenlang mit voller Geschwindigkeit drehen. Je mehr 6 Jahre alte Laufwerke vorhanden sind, desto größer ist die Wahrscheinlichkeit, dass ein anderes Laufwerk aufgrund der Belastung ausfällt. Wenn es sich um RAID5 handelt und Sie das Array sprengen, haben Sie ein Backup, aber die Wiederherstellung einer 2-TB-Festplatte dauert 8 bis 36 Stunden, abhängig vom Typ des RAID-Controllers und anderer Hardware.
Wir ersetzen routinemäßig die gesamte RAID-Struktur auf Produktionsservern, wenn alle Laufwerke veraltet sind. Warum verschwenden Sie Zeit damit, ein Laufwerk auszutauschen, und warten Sie, bis das nächste in einem oder zwei Tagen, einer Woche, einem oder mehreren Monaten ausfällt? So günstig wie die Laufwerke sind, die Ausfallzeit ist es einfach nicht wert.
quelle
Wenn Sie Laufwerke häufig von einem seriösen Wiederverkäufer kaufen, können Sie in der Regel verlangen, dass die Laufwerke aus verschiedenen Chargen stammen. Dies ist aus den oben genannten Gründen wichtig. Als nächstes existiert RAID 1 + 0 genau aus diesem Grund. Wenn Sie 6 Laufwerke in RAID 1 + 0 verwendet hätten, hätten Sie 9 TB Daten mit sofortiger Redundanz, bei denen kein Neuaufbau eines Volumes erforderlich ist.
quelle
Wenn Ihr Controller unter Linux von dmraid (zum Beispiel hier ) erkannt wird , können Sie möglicherweise ddrescue verwenden , um die ausgefallene Festplatte auf eine neue wiederherzustellen, und statt Ihres Hardware-Controllers dmraid verwenden, um das Array zu erstellen.
quelle