Kann ein RAID 4-Festplatten-Setup abstürzen, wenn nur 1 Festplatte ausfällt? [geschlossen]

9

Ich bin ein Webentwickler. Ich habe nicht viel Erfahrung mit Hardware. Aus diesem Grund verwende ich verwaltete Server.

Heute Morgen ist eines der Laufwerke in unserem Setup ausgefallen. Die gesamte Website ging jedoch aus. Ich fragte meinen Webhost, was passiert sei, und er antwortete, dass die Festplatte so ausgefallen sei, dass der RAID-Controller nicht richtig funktionieren könne. Das Array wurde als RAID 4 eingerichtet.

Habt ihr das schon mal gesehen? Ist es möglich?

Vielen Dank für jede Hilfe bei diesen Jungs. Ich muss wissen, ob mein Webhost ehrlich zu mir ist.

Steve Rodrigue
quelle
Wenn mehr als eine Festplatte in einem Array ausfällt, schlägt das RAID fehl (obwohl dies vom RAID-Setup abhängt).
Rhys Evans
Kurz gesagt ist Ihr Provider ein ****** und arbeitet auf der billigen Seite. Dies kann durchaus akzeptabel sein, solange Sie als Kunde gewarnt wurden, dass seine Infrastruktur nicht fehlertolerant ist und Laufwerksfehler auftreten.
Luke404
Bitte aktualisieren Sie die Frage mit dem Raid-Typ (dh Raid 0,1,4,5,6 usw.).
Trevor Boyd Smith

Antworten:

22

Höchstwahrscheinlich verwendet Ihr Provider Festplatten, die nicht für die Verwendung in RAID vorgesehen sind. Normale Consumer-SATA-Laufwerke fallen in diese Kategorie.

Das wahrscheinliche Problem besteht darin, dass auf dem Laufwerk nicht korrigierbare Lesefehler (UREs) aufgetreten sind. Wenn dies in einem Consumer-Laufwerk geschieht, befindet sich das Laufwerk dort und wiederholt den Lesevorgang (normalerweise 30-60 Sekunden lang), bis es aufgibt. Das RAID wartet, bis das Laufwerk den Fehler (30-60) Sekunden meldet. Eine einfache Anforderung für einige Sektoren kann daher leicht dazu führen, dass der Server zum Stillstand kommt, während das ausgefallene Laufwerk diese Lesewiederholungsvorgänge durchläuft.

Laufwerke, die für RAID-Arrays vorgesehen sind, verfügen entweder über eine zeitlich begrenzte Fehlerbehebung (für SATA-Laufwerke). TLER meldet Fehler schnell an die Controller zurück, sodass der Controller intelligent auf solche Fehler reagieren kann (meistens intelligent; hoffentlich). SCSI (auch SAS) funktionieren etwas anders. Mit dem SCSI-Befehlssatz kann der Controller verschiedene Grenzwerte für den Wiederherstellungsaufwand auf Laufwerken festlegen (MODE SELECT: RW ERR RECOVERY). Ein RAID-Controller sollte festlegen, dass die Laufwerke schnell ausfallen. Der Controller kann dann testen, ob das Laufwerk der Ansicht ist, dass es mit dem Befehl TUR ordnungsgemäß funktioniert, und das Laufwerk aus dem Array ausfallen lassen, wenn eine Überprüfungsbedingung vorliegt.

Chris S.
quelle
Gute Erklärung.
Sbrattla
11

Ja, dies ist auch in Szenarien möglich, in denen das Array den Fehler hätte überleben sollen.

Einige Möglichkeiten, warum ein Array ausfällt:

  • Es sind mehr Laufwerke ausgefallen, als im RAID-Modus aufrechterhalten werden konnten. Zum Beispiel:
    • RAID 0 (Striping) kann keine Laufwerksfehler überleben.
    • RAID 1 kann Ausfälle aller Laufwerke bis auf 1 überleben.
    • RAID 4/5 kann 1 Laufwerksfehler überleben.
    • RAID 6 kann 2 Laufwerksausfälle überstehen.
    • RAID 10 kann den Ausfall von bis zu 50% der Laufwerke überstehen, je nachdem, welche Laufwerke ausfallen.
  • Ein Fehler in der RAID-Software oder der Controller-Firmware.
  • Benutzerfehler.
    • Jemand hat zu viele Laufwerke gezogen.
    • Jemand hat ein Laufwerk gezogen und es nie ersetzt, und ein anderes Laufwerk ist anschließend ausgefallen.
    • Das Array wurde nicht überwacht, sodass mehr Laufwerke ausfallen konnten, als überlebt werden konnten.
  • Es ist allgemein bekannt, dass billige Controller mit Laufwerken für Endverbraucher selbst in ansonsten überlebensfähigen Szenarien ausfallen.
    • Ein Laufwerk auf Verbraucherebene versucht fast unbegrenzt, einen schlechten Sektor zu lesen, bis er einen guten Lesevorgang erhält. Ein billiger Controller wartet fast unbegrenzt darauf, dass ein solches Laufwerk ein Ergebnis zurückgibt. Die Wartezeit kann so lang sein, dass das Betriebssystem aufgibt. Beim Neustart reagieren die Laufwerke nicht schnell genug auf den Controller, und es wird angenommen, dass das Array ausgefallen ist.
    • Auf der anderen Seite gibt ein Laufwerk auf Unternehmensebene schnell auf, sodass der Controller die Daten von einem anderen Laufwerk abrufen kann. Außerdem markiert ein guter Controller ein Laufwerk, das zu lange dauert, um als fehlerhaft zu reagieren und fortzufahren.
langer Hals
quelle
1
RAID 1 sollte den Tod aller Laufwerke bis auf eines im Array überleben . Zugegeben, die meisten Leute führen wahrscheinlich RAID 1-Setups mit zwei Laufwerken aus, was bedeutet, dass es nur den Tod eines einzelnen Laufwerks überleben kann, aber das ist RAID 1 nicht eigen
ein CVn
Interessant, wenn 1 Festplatte in einem RAID 10 ausfällt, sollten Sie eine andere Festplatte beschädigen, da diese nicht überlebt, wenn nur eine Festplatte defekt ist :-) Ich denke, Sie sollten Ihren Beitrag bearbeiten.
FLY
@ MichaelKjörling guter Punkt. Ich habe meinen Beitrag bearbeitet.
Longneck
@FLY du hast recht, ich habe diesen Punkt beschönigt. bearbeitet.
Longneck
RAID4 sollte RAID3 sein. RAID3 ist Byte-Striping mit Parität; RAID4 war eine ECC-Implementierung, die eine große Anzahl von Laufwerken benötigte, die AFAIK nie implementiert hat.
Dan spielt am Feuer
8

Wenn es sich um eine RAID 0-Implementierung handelt, verlieren Sie mit Sicherheit das Array und alle damit verbundenen Daten, wenn ein einzelnes Laufwerk ausfällt.

Joeqwerty
quelle
Es ist eine RAID 4-Implementierung
Steve Rodrigue
11
hahaha - du hattest mich fast da, was ist das wirklich?
Chopper3
3
@ Chopper3 NetApp verwendet RAID4. Es ist also nicht völlig unbekannt, obwohl es mich auch zum Lachen gebracht hat. Vielleicht sagt der Host so, dass er einen NetApp Filer oder so hat.
HopelessN00b
1
@SteveRodrigue Sind Sie sicher , dass es RAID 4 ist?
MDMarra
1
Wenn es sich tatsächlich um RAID4 handelt und nur 1 Laufwerk ausgefallen ist, sollte es zumindest im Prinzip möglich sein, ein neues Laufwerk zu installieren und das Array neu zu erstellen. Vielleicht bedeutete der Webhost, dass eines der verbleibenden Laufwerke ausfiel, während er dies versuchte?
user3490
2

Ich habe gesehen, dass Firmware-Fehler das gesamte RAID entfernen, wenn eine Festplatte defekt ist oder wenn ein bevorstehender Fehler gemeldet wird. Entschuldigung, ich habe nichts Spezielles, auf das ich Sie hinweisen kann, aber ja, es kann passieren. Natürlich nicht als Teil der RAID-Spezifikation, es ist definitiv ein Fehler.

Chutz
quelle
1

Ja es ist möglich. Es soll nicht passieren, aber es kann sicher. Geben Sie UREs (nicht behebbarer Lesefehler) und Controller-Fehler sowie Firmware-Fehler und dergleichen ein.

Ohne zusätzliche Informationen (die Ihr Host Ihnen wahrscheinlich nicht geben wird) ist es nicht möglich, definitiv so oder so zu sagen, aber jeder, der mit vielen RAID-Arrays gearbeitet hat, hat Erfahrungen gemacht, bei denen ein ganzes Array verloren gegangen ist oder abgestürzt ist sollte nicht haben.

( Übrigens ist RAID4 kein sehr häufig verwendeter RAID-Level, sollte aber dem Verlust eines Laufwerks standhalten. Dies bedeutet jedoch nicht , dass dies immer der Fall sein wird .)

HopelessN00b
quelle
1

Ich hatte viele Festplattenfehler, bei denen nicht die Mechanik versagte, sondern die Elektronik, aus der die Kommunikationsschnittstelle besteht. Aufgrund ihrer geringen Größe reagieren viele Elektronikkomponenten sehr empfindlich auf geringfügige elektrische Unregelmäßigkeiten (dies kann passieren, wenn große A / C-Motoren in der Nähe ein- und ausgeschaltet werden usw. und die Stromversorgung etwas billig ist).

Wenn die internen Stromrichter oder Kondensatoren des Laufwerks (Energiespeicherpuffer) durchbrennen, können und werden die an den externen Anschlüssen der Festplatte erzeugten elektrischen Signale weit außerhalb der Spezifikation liegen. Da das Laufwerk über Kupferdrähte mit dem Controller verbunden ist und häufig auf Servern viele Kabel gemeinsam genutzt werden, um die Installation zu vereinfachen und Unordnung zu vermeiden, kann dies eine beliebige Anzahl benachbarter Komponenten leicht stören oder sogar dauerhaft zerstören.

Dies hat übrigens sehr wenig mit der Preisgestaltung zu tun. Es ist richtig, dass teure Steuerungen und Antriebe möglicherweise Teile verwenden, die gegenüber abnormalen Bedingungen toleranter sind oder eine bessere Abschirmung aufweisen, und dass Sie mit Budgetkomponenten mit größerer Wahrscheinlichkeit Teile erhalten, die nicht dem Standard entsprechen. Aber ich habe regelmäßig identische Kondensatoren auf einem 50-Dollar-Laufwerk und einem 500-Dollar-Laufwerk gefunden. Und wenn eine ausgefallene Festplatte 12 Volt direkt vom Netzteil zum SATA-Anschluss leitet, weil ein Kurzschluss vorliegt, wird Ihr RAID-Controller gebraten, unabhängig davon, wie viele Zahlen der Preis hatte.

Es ist nicht das, was normalerweise passiert, aber meiner Erfahrung nach ist es definitiv nicht ungewöhnlich.

Jost
quelle
"Oft teilen sich auf Servern viele Laufwerke eine Kabelverbindung" Nicht in modernen SAS- oder SATA-Umgebungen. Es ist astronomisch ziemlich unwahrscheinlich, dass Ihr Szenario das ist, was hier passiert ist. Ich glaube nicht, dass ich jemals davon gehört habe, dass die Elektronik eines Laufwerks stirbt und andere Komponenten mitnimmt. Während 12 V sicherlich einen SATA- oder SAS-Controller braten würden, sind die Logikkomponenten in keiner Weise mit dem 12 V verbunden, da das Verringern der Spannung von 12 auf 3,3 oder weniger im Vergleich zu 5 V- oder 3,3 V-Quellen sehr kompliziert ist. Ich bin gespannt, wo Sie vielleicht den Kopf haben, wenn so etwas passiert. wenn du bereit bist zu teilen?
Chris S
1

Ja, ich denke, der gesamte RAID kann nach einem Ausfall eines einzelnen Laufwerks fehlschlagen. Das erste fehlerhafte Laufwerk wird vom Controller offline geschaltet und der RAID funktioniert weiterhin einwandfrei. Wenn das ausgefallene Laufwerk ersetzt wird, beginnt der Controller mit der Neuerstellung des RAIDs. Wenn auf einem der anderen verbleibenden Laufwerke ein latentes, nicht erkanntes Leseproblem vorliegt, kann eine Neuerstellung des ausgefallenen Laufwerks dazu führen, dass mehr Laufwerke offline geschaltet werden (wenn beim Neuerstellen des RAID Leseprobleme festgestellt werden), wodurch der gesamte RAID erneut ausgeführt wird Scheitern.

Pytagoras
quelle
Aus diesem Grund müssen RAID-Arrays regelmäßig gesäubert werden, um Lese- oder Schreibprobleme zu erkennen.
Chris S