Ich bin ein Webentwickler. Ich habe nicht viel Erfahrung mit Hardware. Aus diesem Grund verwende ich verwaltete Server.
Heute Morgen ist eines der Laufwerke in unserem Setup ausgefallen. Die gesamte Website ging jedoch aus. Ich fragte meinen Webhost, was passiert sei, und er antwortete, dass die Festplatte so ausgefallen sei, dass der RAID-Controller nicht richtig funktionieren könne. Das Array wurde als RAID 4 eingerichtet.
Habt ihr das schon mal gesehen? Ist es möglich?
Vielen Dank für jede Hilfe bei diesen Jungs. Ich muss wissen, ob mein Webhost ehrlich zu mir ist.
Antworten:
Höchstwahrscheinlich verwendet Ihr Provider Festplatten, die nicht für die Verwendung in RAID vorgesehen sind. Normale Consumer-SATA-Laufwerke fallen in diese Kategorie.
Das wahrscheinliche Problem besteht darin, dass auf dem Laufwerk nicht korrigierbare Lesefehler (UREs) aufgetreten sind. Wenn dies in einem Consumer-Laufwerk geschieht, befindet sich das Laufwerk dort und wiederholt den Lesevorgang (normalerweise 30-60 Sekunden lang), bis es aufgibt. Das RAID wartet, bis das Laufwerk den Fehler (30-60) Sekunden meldet. Eine einfache Anforderung für einige Sektoren kann daher leicht dazu führen, dass der Server zum Stillstand kommt, während das ausgefallene Laufwerk diese Lesewiederholungsvorgänge durchläuft.
Laufwerke, die für RAID-Arrays vorgesehen sind, verfügen entweder über eine zeitlich begrenzte Fehlerbehebung (für SATA-Laufwerke). TLER meldet Fehler schnell an die Controller zurück, sodass der Controller intelligent auf solche Fehler reagieren kann (meistens intelligent; hoffentlich). SCSI (auch SAS) funktionieren etwas anders. Mit dem SCSI-Befehlssatz kann der Controller verschiedene Grenzwerte für den Wiederherstellungsaufwand auf Laufwerken festlegen (MODE SELECT: RW ERR RECOVERY). Ein RAID-Controller sollte festlegen, dass die Laufwerke schnell ausfallen. Der Controller kann dann testen, ob das Laufwerk der Ansicht ist, dass es mit dem Befehl TUR ordnungsgemäß funktioniert, und das Laufwerk aus dem Array ausfallen lassen, wenn eine Überprüfungsbedingung vorliegt.
quelle
Ja, dies ist auch in Szenarien möglich, in denen das Array den Fehler hätte überleben sollen.
Einige Möglichkeiten, warum ein Array ausfällt:
quelle
Wenn es sich um eine RAID 0-Implementierung handelt, verlieren Sie mit Sicherheit das Array und alle damit verbundenen Daten, wenn ein einzelnes Laufwerk ausfällt.
quelle
Ich habe gesehen, dass Firmware-Fehler das gesamte RAID entfernen, wenn eine Festplatte defekt ist oder wenn ein bevorstehender Fehler gemeldet wird. Entschuldigung, ich habe nichts Spezielles, auf das ich Sie hinweisen kann, aber ja, es kann passieren. Natürlich nicht als Teil der RAID-Spezifikation, es ist definitiv ein Fehler.
quelle
Ja es ist möglich. Es soll nicht passieren, aber es kann sicher. Geben Sie UREs (nicht behebbarer Lesefehler) und Controller-Fehler sowie Firmware-Fehler und dergleichen ein.
Ohne zusätzliche Informationen (die Ihr Host Ihnen wahrscheinlich nicht geben wird) ist es nicht möglich, definitiv so oder so zu sagen, aber jeder, der mit vielen RAID-Arrays gearbeitet hat, hat Erfahrungen gemacht, bei denen ein ganzes Array verloren gegangen ist oder abgestürzt ist sollte nicht haben.
( Übrigens ist RAID4 kein sehr häufig verwendeter RAID-Level, sollte aber dem Verlust eines Laufwerks standhalten. Dies bedeutet jedoch nicht , dass dies immer der Fall sein wird .)
quelle
Ich hatte viele Festplattenfehler, bei denen nicht die Mechanik versagte, sondern die Elektronik, aus der die Kommunikationsschnittstelle besteht. Aufgrund ihrer geringen Größe reagieren viele Elektronikkomponenten sehr empfindlich auf geringfügige elektrische Unregelmäßigkeiten (dies kann passieren, wenn große A / C-Motoren in der Nähe ein- und ausgeschaltet werden usw. und die Stromversorgung etwas billig ist).
Wenn die internen Stromrichter oder Kondensatoren des Laufwerks (Energiespeicherpuffer) durchbrennen, können und werden die an den externen Anschlüssen der Festplatte erzeugten elektrischen Signale weit außerhalb der Spezifikation liegen. Da das Laufwerk über Kupferdrähte mit dem Controller verbunden ist und häufig auf Servern viele Kabel gemeinsam genutzt werden, um die Installation zu vereinfachen und Unordnung zu vermeiden, kann dies eine beliebige Anzahl benachbarter Komponenten leicht stören oder sogar dauerhaft zerstören.
Dies hat übrigens sehr wenig mit der Preisgestaltung zu tun. Es ist richtig, dass teure Steuerungen und Antriebe möglicherweise Teile verwenden, die gegenüber abnormalen Bedingungen toleranter sind oder eine bessere Abschirmung aufweisen, und dass Sie mit Budgetkomponenten mit größerer Wahrscheinlichkeit Teile erhalten, die nicht dem Standard entsprechen. Aber ich habe regelmäßig identische Kondensatoren auf einem 50-Dollar-Laufwerk und einem 500-Dollar-Laufwerk gefunden. Und wenn eine ausgefallene Festplatte 12 Volt direkt vom Netzteil zum SATA-Anschluss leitet, weil ein Kurzschluss vorliegt, wird Ihr RAID-Controller gebraten, unabhängig davon, wie viele Zahlen der Preis hatte.
Es ist nicht das, was normalerweise passiert, aber meiner Erfahrung nach ist es definitiv nicht ungewöhnlich.
quelle
Ja, ich denke, der gesamte RAID kann nach einem Ausfall eines einzelnen Laufwerks fehlschlagen. Das erste fehlerhafte Laufwerk wird vom Controller offline geschaltet und der RAID funktioniert weiterhin einwandfrei. Wenn das ausgefallene Laufwerk ersetzt wird, beginnt der Controller mit der Neuerstellung des RAIDs. Wenn auf einem der anderen verbleibenden Laufwerke ein latentes, nicht erkanntes Leseproblem vorliegt, kann eine Neuerstellung des ausgefallenen Laufwerks dazu führen, dass mehr Laufwerke offline geschaltet werden (wenn beim Neuerstellen des RAID Leseprobleme festgestellt werden), wodurch der gesamte RAID erneut ausgeführt wird Scheitern.
quelle