RAID-5: Zwei Festplatten gleichzeitig ausgefallen?

21

Wir haben einen Dell PowerEdge T410-Server mit CentOS und einem RAID-5-Array mit 5 Seagate Barracuda 3 TB SATA-Festplatten. Gestern ist das System abgestürzt (ich weiß nicht wie genau und ich habe keine Protokolle).

Beim Hochfahren des RAID-Controller-BIOS stellte ich fest, dass von den 5 Laufwerken Laufwerk 1 als "nicht vorhanden" und Laufwerk 3 als "beeinträchtigt" gekennzeichnet war. Ich habe die Sicherung von Festplatte 3 erzwungen und Festplatte 1 durch eine neue Festplatte (mit derselben Größe) ersetzt. Das BIOS hat dies erkannt und mit der Neuerstellung von Datenträger 1 begonnen - der Datenträger blieb jedoch bei% 1 hängen. Die Spinnfortschrittsanzeige bewegte sich nicht die ganze Nacht; total gefroren.

Welche Möglichkeiten habe ich hier? Gibt es eine Möglichkeit zum Wiederherstellen, abgesehen von einem professionellen Datenwiederherstellungsdienst? Wie könnten zwei Festplatten gleichzeitig so ausfallen? Scheint zu zufällig. Ist es möglich, dass Datenträger 1 ausgefallen ist und infolgedessen Datenträger 3 nicht mehr synchron ist? Wenn ja, gibt es ein Dienstprogramm, mit dem ich es wieder "synchronisieren" kann?

Mike Furlender
quelle
20
Ja, große Sata-Festplatten tun dies in der Regel. (Das Wiederherstellen von 3 TB dauert viele Stunden, während Sie Doppelfehlern ausgesetzt sind.) Dies wird also erwartet und deshalb wird die Verwendung von RAID-5 mit einer solchen Konfiguration absolut nicht empfohlen.
MichelZ
9
Tatsächlich. In einer idealen Welt sind die Ausfallraten von Laufwerken zufällig verteilt. Praktisch passiert dies nicht - sie werden normalerweise aus der gleichen Charge gekauft und denselben Belastungen ausgesetzt, was bedeutet, dass sie alle zur gleichen Zeit das Lebensende erreichen. Eine plötzliche Verlagerung des Ladevorgangs kann sehr leicht mehrere "über den Rand" bringen, noch bevor Sie sich mit nicht behebbaren Fehlerraten auf SATA-Festplatten befassen. Wie auch immer - ich fürchte, die schlechte Nachricht ist, dass es an der Zeit ist, die Backups zu veröffentlichen, es sei denn, Sie können eines dieser Laufwerke online schalten.
Sobrique
5
Ich weiß, dass es jetzt nicht viel hilft, aber nur zu Ihrer Information - der allgemeine Konsens besteht darin, RAID6 für Laufwerke zu verwenden, die größer als 1 TB sind (spätestens, wenn wir über 7200 U / min sprechen).
Pause
2
RAID 5 bietet Fehlertoleranz, ist jedoch eine Kompromissoption - Sie haben eine Ausfallsicherheit von N + 1, aber wenn Sie große Laufwerke haben, haben Sie ein großes Fenster, in dem ein zweiter Fehler auftreten kann. RAID-6 bietet eine Fehlertoleranz von N + 2, die im Allgemeinen als gut angesehen wird (die Wahrscheinlichkeit eines dreifachen Ausfalls ist viel geringer). Sie finden jedoch auch die Ausfallrate von teureren Festplatten (z. B. nicht billige SATA-Laufwerke)
Sobrique

Antworten:

24

Nachdem Sie eine schlechte Antwort akzeptiert haben, tut mir meine ketzerische Meinung sehr leid (die solche Arrays bereits mehrfach gespeichert hat).

Ihre zweite ausgefallene Festplatte weist wahrscheinlich ein geringfügiges Problem auf, möglicherweise einen Blockfehler. Dies ist die Ursache, warum das fehlerhafte Synchronisierungstool Ihrer fehlerhaften raid5-Firmware darauf abgestürzt ist.

Sie können problemlos eine Kopie auf Sektorebene mit einem Low-Level-Tool zum Klonen von Datenträgern erstellen (z. B. ist gddrescue wahrscheinlich sehr nützlich) und diesen Datenträger als neuen Datenträger3 verwenden. In diesem Fall hat Ihr Array mit einer geringfügigen Datenbeschädigung überlebt.

Es tut mir leid, wahrscheinlich ist es zu spät, denn das Wesen der orthodoxen Antwort in diesem Fall: "Mehrfachversagen bei einem Überfall5, hier ist die Apokalypse!"

Wenn Sie ein sehr gutes, redundantes RAID wollen, verwenden Sie Software-RAID unter Linux. Zum Beispiel ist sein RAID-Superblock-Datenlayout öffentlich und dokumentiert ... Es tut mir wirklich leid, für meine dies eine andere ketzerische Meinung.

sagt Peter, stell Monica wieder her
quelle
8
Schade, dass dies zu Abstimmungen geführt hat, es versucht tatsächlich, dem OP zu helfen, das Chaos zu beheben, im Gegensatz zu einigen anderen. +1
Vality
3
@Vality versucht nicht, das Chaos zu lösen, es erweitert seine Probleme. Ein Überfall5 mit beschädigten Blöcken lässt keine Schmerzen aufkommen, da er die Integritätsprüfungen besteht, sich aber regelmäßig verschlechtert. Auch er hätte keine Ahnung, welche Daten fehlerhaft sind. Wenn es so einfach wäre, wie einen Block zu reparieren, wäre das die Standardlösung.
James Ryan
4
@JamesRyan Ich bin damit einverstanden, dass es einige spätere Probleme verursachen wird, und ich stimme sogar zu, dass es hier zugrunde liegende Probleme gibt. Es bietet jedoch eine gültige Lösung für die Wiederherstellung einiger Funktionen. Da im OP Datenwiederherstellungsexperten angesprochen wurden, kann ich nur davon ausgehen, dass sie keine Sicherungen haben, um ihre Daten ansonsten wiederherzustellen. Am Ende wäre diese Lösung nur ein Teil eines Fixes. Nachdem das System mit dieser Methode erneut gebootet wurde, möchten Sie das Dateisystem wahrscheinlich auf 5 neue Festplatten übertragen und diese dann unbedingt sichern.
Vality
1
"Sie könnten leicht eine Kopie eines Blockkopierwerkzeugs auf Sektorebene erstellen." Wollten Sie das wirklich schreiben?
Arnaud Meuret
1
@MikeFurlender Ich denke, Hardware ist schneller, aber proprietär und daher spröde, da Sie den exakt gleichen Controller benötigen, falls er ausfällt. Software-RAID ist unabhängig von der Hardware. Siehe btrfs und zfs.
Martin Ueding
38

Sie haben einen Doppelplattenfehler. Dies bedeutet, dass Ihre Daten nicht mehr vorhanden sind und Sie eine Wiederherstellung von einem Backup durchführen müssen. Aus diesem Grund sollten wir RAID 5 nicht für große Festplatten verwenden. Sie möchten Ihr Raid so einrichten, dass Sie immer in der Lage sind, zwei Datenträgerausfälle zu überstehen, insbesondere bei großen langsamen Datenträgern.

Basilikum
quelle
3
Es gibt zwei Probleme mit RAID5. Erstens: Die Wiederherstellungszeit von 3 TB kann bei einem langsamen SATA-Laufwerk groß sein, was die Wahrscheinlichkeit eines Verbundfehlers erhöht. Das andere Problem ist die nicht behebbare Bitfehlerrate. Das Datenblatt auf den meisten SATA-Laufwerken enthält 1/10 ^ 14, was ungefähr 12 TB Daten entspricht. Mit einem 5-Wege-RAID von 3B ist dies fast unumgänglich, wenn ein Neuaufbau erforderlich ist.
Sobrique,
1
Ich verwende RAID5 auf meinem 3-TB-5-Laufwerksarray und habe versucht, ein zweites Array als replizierte Kopie des ersten zu verwenden. Auf diese Weise würde es für mich erforderlich sein, dass mehr als eine Festplatte gleichzeitig auf beiden Arrays ausfällt (ich würde also 4 Festplatten benötigen), aber immer noch diese große Menge an verfügbarer Kapazität beibehalten. Nachdem ich dies gelesen habe, kann ich jetzt den Zeitrahmen für das Erhalten des zweiten Arrays erhöhen.
Krieg
1
Er hat wahrscheinlich nur einen Badblock auf seiner Festplatte3. Ich frage mich wirklich, warum ein professioneller Sysadmin noch nie von Kopierwerkzeugen auf Blockebene gehört hat.
Peterh sagt wieder Monica
1
@Wardy, würde Raid 6 dir das nicht geben?
Basil
3
Keine sehr hilfreiche Antwort. Sicher, bei einem Ausfall einer doppelten Festplatte auf einem RAID 5 ist die Chance auf Wiederherstellung nicht gut. Die meisten Doppelfestplattenfehler in RAID 5 sind jedoch wahrscheinlich nur auf eine fehlerhafte Festplatte und einige nicht korrigierte Lesefehler auf anderen Festplatten zurückzuführen. In diesem Fall können die meisten Daten mit den richtigen Tools wiederhergestellt werden. Hinweise auf solche Tools wären hilfreich.
Kasperd
37

Ihre Möglichkeiten sind:

  1. Wiederherstellen von Backups.
    • Sie tun Sicherungen haben, nicht wahr? RAID ist kein Backup.

  2. Professionelle Datenwiederherstellung
    • Es ist möglich, dass ein professioneller Wiederherstellungsdienst Ihre Daten wiederherstellen kann, obwohl dies sehr teuer und nicht garantiert ist.

  3. Akzeptieren Sie Ihren Datenverlust und lernen Sie aus den Erfahrungen.
    • Wie in den Kommentaren erwähnt, werden große SATA-Festplatten für eine RAID 5-Konfiguration nicht empfohlen, da die Gefahr eines doppelten Ausfalls während der Wiederherstellung besteht, wodurch das Array ausfällt.
      • Wenn es sich um Paritäts-RAID handeln muss, ist RAID 6 besser, und verwenden Sie beim nächsten Mal auch ein Ersatzlaufwerk.
      • SAS-Datenträger sind aus verschiedenen Gründen besser geeignet, z. B. aus Gründen der Zuverlässigkeit, Ausfallsicherheit und geringeren Häufigkeit nicht behebbarer Bitfehler, die zu UREs (nicht behebbaren Lesefehlern) führen können.
    • Wie oben erwähnt, handelt es sich bei RAID nicht um ein Backup. Wenn die Daten von Bedeutung sind, stellen Sie sicher, dass sie gesichert sind und dass Ihre Sicherungen auf Wiederherstellung getestet wurden.
HopelessN00b
quelle
1
Wenn Sie über 5 Festplatten (gemäß OP) verfügen und sich für ein Ersatzlaufwerk entschieden haben, würden Sie mit Sicherheit RAID10 über RAID6 nehmen ...?
Jimbobmcgee
1
Nun, für den Anfang - Sie würden 4 Spindeln in einem RAID 1 + 0 verwenden, um 2 Festplatten im Wert von Speicherplatz zu erhalten, wobei eine Festplatte "frei" bleibt. Sie können zwei Fehler tolerieren (mindestens die richtigen zwei). RAID6 bietet Platz für 3 Festplatten und kann auch zwei Ausfälle (zwei beliebige) tolerieren. RAID1 + 0 bietet eine bessere Leistung mit einer geringeren Schreibstrafe und potenziell einer besseren Zufallsleseleistung (Lesevorgänge können von einer der beiden Spindeln ausgeführt werden).
Sobrique,
Zu Punkt 2. Datenrettung. Das professionelle Wiederherstellen von Daten von einem RAID5 kann Ihnen 20.000 US-Dollar kosten. Darüber hinaus lässt OP den Neuaufbau über Nacht laufen und belastet die Festplatte, wodurch die Wiederherstellung schwieriger oder sogar unmöglich wird. Lassen Sie es Sie einfach im Voraus wissen. Stellen Sie sicher, dass Sie alle Datenträger senden.
OmnipotentEntity
4

Gleichzeitiges Versagen ist aus den von anderen genannten Gründen möglich oder sogar wahrscheinlich. Die andere Möglichkeit ist, dass eine der Festplatten vor einiger Zeit ausgefallen ist und Sie sie nicht aktiv überprüft haben.

Stellen Sie sicher, dass Ihre Überwachung ein RAID-Volume, das im herabgesetzten Modus ausgeführt wird, sofort erkennt. Möglicherweise haben Sie keine Option erhalten, aber es ist nie gut, diese Dinge aus dem BIOS lernen zu müssen.

richardb
quelle
3
+1 für die Erwähnung einer vernachlässigten Überwachung. Es ist wichtig, bereits den Schritt "normal" -> "kritisch" zu beachten, nicht den Schritt "kritisch" -> "falsch". Dies gilt auch für alle anderen Arten von Entlassungen (Backup-Internetleitung, Bier im Keller, Reserverad, ...).
Hagen von Eitzen
2

Um zu antworten: "Wie könnten zwei Festplatten gleichzeitig so ausfallen?" Genau, ich möchte aus diesem Artikel zitieren :

Der Kern des Arguments ist dies. Da die Festplatten immer größer wurden (ungefähr das Doppelte in zwei Jahren), hat sich die URE (nicht behebbarer Lesefehler) nicht mit der gleichen Rate verbessert. URE misst die Häufigkeit des Auftretens eines nicht behebbaren Lesefehlers und wird typischerweise in Fehlern pro gelesenem Bit gemessen. Zum Beispiel impliziert eine URE-Rate von 1E-14 (10 ^ -14), dass statistisch gesehen ein nicht behebbarer Lesefehler einmal in jedem 1E14-Bit-Lesevorgang auftritt (1E14-Bits = 1,25E13 Bytes oder ungefähr 12 TB).

...

Das Argument ist, dass die Wahrscheinlichkeit eines RAID5-Wiederherstellungsfehlers mit der Zeit zunimmt, wenn die Festplattenkapazität zunimmt und sich die URE-Rate nicht mit der gleichen Rate verbessert. Statistisch zeigt er, dass die Festplattenkapazitäten im Jahr 2009 so groß geworden wären, dass die Verwendung von RAID5 für ein sinnvolles Array bedeutungslos geworden wäre.

RAID5 war also 2009 unsicher. RAID6 wird es auch bald sein. Bei RAID1 habe ich angefangen, sie aus 3 Festplatten zu machen. RAID10 mit 4 Festplatten ist ebenfalls prekär.

Halfgaar
quelle
3
Auch hier handelt es sich bei RAID nicht um eine Sicherungsalternative, sondern lediglich um das Hinzufügen einer "Pufferzone", in der eine Festplatte ausgetauscht werden kann, um die verfügbaren Daten ... verfügbar zu halten. Die andere Möglichkeit ist, die Replikation zu verwenden, bei der zwei Arrays gleichzeitig ausfallen würden ... viel weniger wahrscheinlich, denke ich.
Krieg
Persönlich mag ich das Mantra nicht, dass RAID kein Backup ist. Das Wörterbuch sagt: "Eine Person, ein Plan, ein Gerät usw., die in Reserve gehalten werden, um bei Bedarf als Ersatz zu dienen." Wenn die Menge der Redundanz nicht ausreicht, kann sie nicht als Ersatz dienen. Wenn Sie sich nicht für das Redundanz-RAID interessieren, können Sie es auch nicht verwenden. Da dies kein Ersatz für Off-Disk- und Off-Site-Backups ist, ist dies eine ganz andere Sache, der ich (natürlich) zustimme.
Halfgaar
Was halten Sie von RAID-Stripes ohne Redundanz? In diesem Fall wird das RAID-Array nur verwendet, um einen Leistungsvorteil zu erzielen, der meiner Meinung nach eine einwandfreie Verwendung darstellt. RAID dient zwei Zwecken: 1. Geschwindigkeit durch Gruppierung der Laufwerke oder 2. Bereitstellung eines Sicherheitsnetzes für den Fall, dass n Laufwerke fallen aus, um sicherzustellen, dass die Daten noch verfügbar sind.
Krieg
Jeder, der RAID implementiert, wählt den RAID-Typ, den er verwenden möchte, basierend auf seinen Anforderungen, seiner Geschwindigkeit, Zuverlässigkeit oder einer Kombination der beiden, aber dies macht RAID dennoch zu keiner Form einer Sicherungslösung.
Krieg
1
Wenn Leute sagen, RAID ist kein Backup, sprechen sie nicht über Verfügbarkeit. Ich denke, du spielst nur mit Worten. :)
gparent
2

Der Thread ist alt. Wenn Sie jedoch lesen, überprüfen Sie das Alter der Laufwerke, wenn ein Laufwerk in einem RAID-Array ausfällt. Wenn Sie mehrere Festplatten in einem RAID-Array haben und diese älter als 4-5 Jahre sind, ist die Wahrscheinlichkeit groß, dass eine andere Festplatte ausfällt. *** Machen Sie ein Bild oder eine Sicherungskopie **, bevor Sie fortfahren. Wenn Sie glauben, ein Backup zu haben, testen Sie es, um sicherzustellen, dass Sie es lesen und wiederherstellen können.

Der Grund dafür ist, dass die verbleibenden Laufwerke jahrelang normalem Verschleiß ausgesetzt sind und sich stundenlang mit voller Geschwindigkeit drehen. Je mehr 6 Jahre alte Laufwerke vorhanden sind, desto größer ist die Wahrscheinlichkeit, dass ein anderes Laufwerk aufgrund der Belastung ausfällt. Wenn es sich um RAID5 handelt und Sie das Array sprengen, haben Sie ein Backup, aber die Wiederherstellung einer 2-TB-Festplatte dauert 8 bis 36 Stunden, abhängig vom Typ des RAID-Controllers und anderer Hardware.

Wir ersetzen routinemäßig die gesamte RAID-Struktur auf Produktionsservern, wenn alle Laufwerke veraltet sind. Warum verschwenden Sie Zeit damit, ein Laufwerk auszutauschen, und warten Sie, bis das nächste in einem oder zwei Tagen, einer Woche, einem oder mehreren Monaten ausfällt? So günstig wie die Laufwerke sind, die Ausfallzeit ist es einfach nicht wert.

Rickkee Ranton
quelle
1

Wenn Sie Laufwerke häufig von einem seriösen Wiederverkäufer kaufen, können Sie in der Regel verlangen, dass die Laufwerke aus verschiedenen Chargen stammen. Dies ist aus den oben genannten Gründen wichtig. Als nächstes existiert RAID 1 + 0 genau aus diesem Grund. Wenn Sie 6 Laufwerke in RAID 1 + 0 verwendet hätten, hätten Sie 9 TB Daten mit sofortiger Redundanz, bei denen kein Neuaufbau eines Volumes erforderlich ist.

Payton Byrd
quelle
Wo ist der Beweis dafür, dass der Teil über die Verwendung von Laufwerken aus verschiedenen Chargen alles andere als ein urbaner Mythos ist? Außerdem schützt RAID 1 nicht auf magische Weise vor dem Eindringen in unlesbare Sektoren während der Wiederherstellung. Wenn Sie sich dagegen schützen möchten, wählen Sie entweder RAID 6 oder RAID 1 mit drei Spiegeln (ein bisschen teuer).
Kasperd
1
@kasperd Ich denke, die Frage, die den ersten Teil Ihres Kommentars bildet, ähnelt der folgenden, wenn auch offensichtlich nicht der gleichen: Sollte ich eine Festplatte eines neuen RAID-1-Paares einspielen, um die Wahrscheinlichkeit einer ähnlichen Ausfallzeit zu verringern? .
ein Lebenslauf vom
1

Wenn Ihr Controller unter Linux von dmraid (zum Beispiel hier ) erkannt wird , können Sie möglicherweise ddrescue verwenden , um die ausgefallene Festplatte auf eine neue wiederherzustellen, und statt Ihres Hardware-Controllers dmraid verwenden, um das Array zu erstellen.

Brian Minton
quelle