bit rot erkennung und korrektur mit mdadm

17

Ich bin dabei, alle meine Festplatten in meiner Home-Linux-Box neu zu organisieren und möchte mdadm raid für den Datenschutz und seine Flexibilität für die Umgestaltung der Arrays verwenden. Bevor ich jedoch mdadm verwende, möchte ich wissen, wie es mit Bit Rot umgeht . Insbesondere die Arten von Bit Rot, die nicht dazu führen, dass nicht behebbare Lesefehlermeldungen von der Festplatte gesendet werden.

Da werde ich wahrscheinlich zumindest unter Verwendung von 21 TB HDDs in 8 Scheiben in den nas und die verschiedenen Angebote auf Wahrscheinlichkeiten von Fehlern auf Festplatten, ich denke , dass während eine aus einem einzigen Plattenausfall wieder aufbauen Ich bin einigermaßen wahrscheinlich Begegnung irgendeine Form von Bit-Rot auf den verbleibenden Platten. Wenn es sich bei einem der Laufwerke um einen nicht behebbaren Lesefehler handelt, den das Laufwerk tatsächlich als Fehler meldet, sollte dies meines Erachtens für raid6 in Ordnung sein (oder?). Wenn jedoch die von der Festplatte gelesenen Daten schlecht sind, aber nicht als solche von der Festplatte gemeldet werden, kann ich nicht sehen, wie dies auch mit raid6 automatisch korrigiert werden kann. Müssen wir uns darüber Sorgen machen? Angesichts des Artikels Es ist 2010 und RAID5 funktioniert immer nochund meine eigenen erfolgreichen Erfahrungen zu Hause und bei der Arbeit sind die Dinge nicht unbedingt so verhängnisvoll, wie es die Schlagworte und das Marketing vermuten lassen, aber ich hasse es, Backups wiederherstellen zu müssen, nur weil eine Festplatte ausgefallen ist.

Da die Verwendungsmuster so sind, dass sie höchstens ein paar Mal geschrieben und gelegentlich gelesen werden, muss ein Datenbereinigungsvorgang durchgeführt werden . Ich sehe auf die archlinux wiki die mdadm Befehle für Datenbereinigung ein Array als

echo check > /sys/block/md0/md/sync_action

dann, um den Fortschritt zu überwachen

cat /proc/mdstat

Dies scheint mir, dass es alle Sektoren aller Festplatten lesen und prüfen wird, ob die Daten mit der Parität übereinstimmen und umgekehrt. Obwohl ich bemerke, dass in den Dokumenten viel Nachdruck darauf gelegt wird, dass es signifikante Umstände gibt, unter denen der "Check" -Vorgang nicht automatisch korrigiert, sondern nur erkannt werden kann und es dem Benutzer überlässt, dies zu beheben.

Welche mdadm-RAID-Level sollte ich wählen, um meinen Schutz vor Bit Rot zu maximieren, und welche Wartungs- und sonstigen Schutzmaßnahmen sollte ich ergreifen? Und wovor schützt mich das nicht?

Bearbeiten: Ich möchte kein RAID gegen ZFS oder eine andere Technologie-QA starten. Ich möchte speziell über mdadm raid wissen. Deshalb frage ich auch unter Unix & Linux und nicht unter SuperUser .

Bearbeiten: lautet die Antwort: mdadm kann nur UREs korrigieren, die von den Festplattensystemen während einer Datenbereinigung gemeldet werden, und während einer Bereinigung stilles Bit Rot erkennen, kann / wird dies jedoch nicht beheben?

BeowulfNode42
quelle
Was den Datenschutz anbelangt, besteht der Hauptvorteil von zfs darin, dass die Speicherorte der Dateien beim Lesen einer Datei gescrubbt werden. Aus diesem Grund habe ich es derzeit mit zfs eingerichtet. Aber ich muss trotzdem noch regelmäßige vollständige Peelings durchführen. Ich habe 2 ZFS-Pools mit jeweils 3 Festplatten, und ich möchte ein Upgrade auf ein System mit 8 Festplatten durchführen, bei dem jedes Laufwerk ausfallen kann und es immer noch 1 redundantes Laufwerk gibt. ZFS ist nicht flexibel, um eine solche Umgestaltung zu ermöglichen. Da ich sowieso wieder aufbaue, besuche ich mdadm wieder.
BeowulfNode42
Sie hatten bisher Glück mit RAID5 / 6. Tatsache ist, es ist 2013 und RAID leidet immer noch unter einer Schreiblücke. Wenn Sie nach dem Schreiben der Daten, aber vor dem Schreiben der Parität, an Leistung verlieren, haben Sie gerade Ihre fehlerfreien Daten beschädigt, und es ist möglich, dass Ihr Array trotz der Inkonsistenz auch geröstet wird. Vielen Dank, RAID5.
Bahamat
Die Sache ist, was Sie tun möchten, ist am besten auf der Dateisystemebene. Andernfalls benötigen Sie eine Möglichkeit, Bit Rot zu erkennen und vorzugsweise zu korrigieren, möglicherweise in einer Situation ohne oder mit reduzierter Redundanz, und RAID ist dafür einfach nicht geeignet. Es gibt nicht nur keine Garantie dafür, dass Sie sowieso nicht mit Bit Rot enden (was ist, wenn ein Laufwerk ausfällt und ein anderes das Bit falsch vom Plattenteller liest?), Sondern einfaches RAID hat auch keine Vorstellung davon, was wichtige Daten sind und was nur Lärm. Da ZFS nur referenzierte Daten löscht , ist Bit Rot auf einem nicht verwendeten Teil der Festplatte kein Problem.
ein Lebenslauf vom
Es ist nicht zu erwarten, dass Sie ein zufälliges Dateisystem (auch bei Redundanz) auf mehrere Festplatten legen, um sich plötzlich vor Speicherfehlern zu schützen. Ich bin nicht auf einem Kreuzzug, um ZFS zu den Massen zu bringen (obwohl ich es für eine großartige Erfindung halte und es selbst unter Linux für praktisch alles außer für die Root-Partition verwende, die aus Gründen der Softwarekompatibilität auf mdraid1 ext4 ist), sondern Ich erkenne auch, dass es sich bei Ihrem Problem um ein Problem handelt, das ZFS von Grund auf gelöst hat: Garantierte Erkennung und nach Möglichkeit Behebung von Datenbeschädigungen, unabhängig von der Ursache.
ein Lebenslauf vom
Ich denke, Sie sollten Ihre Anforderungen überarbeiten. Benötigen Sie wirklich Bitrot-Schutz, auch wenn eine Fehlerkorrektur angewendet wird? Wissen Sie, wie unwahrscheinlich es ist, dass ein Bitrot existiert, GIVEN, dass es auch vom ECC der Festplatte korrigiert wurde?
Höhlenmensch

Antworten:

5

Ehrlich gesagt finde ich es ziemlich überraschend, dass Sie RAIDZ2 ZFS ablehnen würden. Es scheint fast perfekt auf Ihre Bedürfnisse zugeschnitten zu sein, abgesehen von der Tatsache, dass es sich nicht um Linux MD handelt. Ich bin nicht auf einem Kreuzzug, um ZFS zu den Massen zu bringen, aber die einfache Tatsache ist, dass Ihr Problem eine der Arten von Problemen ist, für deren Lösung ZFS von Grund auf entwickelt wurde. Das Verlassen auf RAID (jedes "normale" RAID) zur Fehlererkennung und -korrektur, möglicherweise in Situationen mit reduzierter oder nicht redundanter Ausführung, scheint riskant. Selbst in Situationen, in denen ZFS einen Datenfehler nicht ordnungsgemäß beheben kann, kann es den Fehler zumindest erkennen und Sie auf ein Problem hinweisen, sodass Sie Korrekturmaßnahmen ergreifen können.

Sie müssen nicht haben , um mit ZFS regulärer Voll scheuert zu tun, obwohl es Praxis empfohlen. ZFS überprüft, ob die von der Festplatte gelesenen Daten mit den beim Lesen der Daten geschriebenen Daten übereinstimmen, und verwendet im Falle einer Nichtübereinstimmung entweder (a) Redundanz zur Rekonstruktion der ursprünglichen Daten oder (b) einen E / A-Fehler an die Anwendung. Darüber hinaus ist das Scrubben eine Online-Operation mit niedriger Priorität, die sich von der Dateisystemprüfung in den meisten Dateisystemen, die sowohl eine hohe Priorität als auch eine Offline-Priorität haben können, deutlich unterscheidet. Wenn Sie eine Bereinigung ausführen und etwas anderes als die Bereinigung E / A ausführen möchte, wird die Bereinigung für die Dauer auf dem Rücksitz bleiben. Ein ZFS - Peeling tritt an die Stelle der beiden RAID - Peeling und einer Dateisystem - Metadaten und Daten Die Integritätsprüfung ist also weitaus gründlicher als das einfache Scrubben des RAID-Arrays, um Fehler zu erkennen (was nicht aussagt, ob die Daten überhaupt Sinn ergeben, sondern nur, dass sie vom RAID-Controller korrekt geschrieben wurden).

Die ZFS-Redundanz (RAIDZ, Spiegelung, ...) hat den Vorteil, dass nicht verwendete Plattenspeicherorte beim Scrubben nicht auf Konsistenz überprüft werden müssen. Während des Scrubs werden nur die tatsächlichen Daten überprüft, da die Tools die Zuordnungsblockkette durchlaufen. Dies ist dasselbe wie bei einem nicht redundanten Pool. Bei "normalem" RAID müssen alle Daten (einschließlich nicht verwendeter Speicherorte auf der Festplatte) überprüft werden, da der RAID-Controller (Hardware oder Software) keine Ahnung hat, welche Daten tatsächlich relevant sind.

Bei Verwendung von RAIDZ2 vdevs können zwei beliebige Festplatten ausfallen, bevor das Risiko eines tatsächlichen Datenverlusts aufgrund eines anderen Laufwerksausfalls besteht, da zwei Festplatten redundant sind. Dies ist im Wesentlichen dasselbe wie bei RAID6.

In ZFS werden alle Daten, sowohl Benutzerdaten als auch Metadaten, mit einer Prüfsumme versehen (außer Sie entscheiden sich dagegen, was jedoch empfohlen wird). Diese Prüfsummen werden verwendet, um zu bestätigen, dass sich die Daten aus irgendeinem Grund nicht geändert haben. Wenn eine Prüfsumme nicht mit dem erwarteten Wert übereinstimmt, werden die Daten entweder transparent rekonstruiert oder ein E / A-Fehler wird gemeldet. Wenn ein E / A-Fehler gemeldet wird oder ein Scrub eine Datei mit Beschädigung identifiziert, wissen Sie, dass die Daten in dieser Datei möglicherweise beschädigt sind und diese bestimmte Datei aus der Sicherung wiederherstellen können. Eine vollständige Array-Wiederherstellung ist nicht erforderlich.

Ein einfaches RAID, auch mit doppelter Parität, schützt Sie nicht vor Situationen, in denen beispielsweise ein Laufwerk ausfällt und ein weiteres die Daten falsch von der Festplatte liest. Angenommen, ein Laufwerk ist ausgefallen und es gibt einen einzelnen Bit-Flip von einem der anderen Laufwerke: Plötzlich haben Sie eine unentdeckte Beschädigung, und wenn Sie damit nicht zufrieden sind, müssen Sie eine Möglichkeit finden, diese zumindest zu erkennen. Um dieses Risiko zu minimieren, müssen Sie jeden Block auf der Festplatte mit einer Prüfsumme versehen und sicherstellen, dass die Prüfsumme nicht zusammen mit den Daten beschädigt wird (Schutz vor Fehlern wie High-Fly-Schreibvorgängen, verwaisten Schreibvorgängen, Schreibvorgängen an falschen Speicherorten auf der Festplatte usw.) ist genau das, was ZFS tut, solange die Prüfsumme aktiviert ist.

Der einzige wirkliche Nachteil ist, dass Sie ein RAIDZ vdev nicht einfach erweitern können, indem Sie Geräte hinzufügen. Hierfür gibt es Problemumgehungen, bei denen in der Regel Dateien mit geringer Dichte als Geräte in einem vdev verwendet werden und die häufig als "Ich würde dies nicht tun, wenn es meine Daten wären" bezeichnet werden. Wenn Sie sich also für eine RAIDZ-Route entscheiden (unabhängig davon, ob Sie sich für RAIDZ, RAIDZ2 oder RAIDZ3 entscheiden), müssen Sie im Voraus entscheiden, wie viele Laufwerke in jedem vdev vorhanden sein sollen. Obwohl die Anzahl der Laufwerke in einem vdev fixiert ist, Sie können eine vdev durch allmählich wachsen (um sicherzustellen , bleibt innerhalb der Redundanzschwelle des vdev) die Laufwerke mit höherer Kapazität zu ersetzen und eine vollständige resilver ermöglicht.

ein CVn
quelle
5
In meiner ursprünglichen Frage habe ich versucht, das Argument zfs vs raid zu umgehen, da es dazu viele Informationen gibt. Ich möchte spezifische Informationen über mdadm. Da ich nicht oft genug alle Daten lesen werde, um sicherzustellen, dass die Daten regelmäßig gescrubbt werden, muss ich ein regelmäßiges Scrubben des gesamten Arrays erzwingen, unabhängig von zfs oder RAID.
BeowulfNode42
@ BeowulfNode42 Ich persönlich schlage vor, Prüfsummen auf Anwendungsebene für außergewöhnlich wichtige Daten zu verwenden (z. B. sha256, um Ihre wichtigen Daten zu prüfen). ZFS kann dies pro Block tun, was ich wirklich für einen Overkill halte. Ich denke, dies erklärt, warum nicht viele Dateisysteme Prüfsummen ihrer Blöcke wie ZFS, weil dies meiner Ansicht nach eher ein Problem der Anwendungsebene ist.
Höhlenmensch
1
@caveman Ich weiß nichts über dich. Ich mag die Tatsache, dass ich nicht ständig die Summe der Dateien überprüfen muss, um sicherzugehen, dass sie nicht beschädigt wurden. Sicher, die überwiegende Mehrheit der Zeit gibt es keine Korruption . In diesem Fall wird kein Schaden angerichtet (mit ZFS können Sie einen Prüfsummenalgorithmus aus einer Handvoll auswählen, sodass Sie Ihren bevorzugten Punkt entlang des Sicherheits- / Leistungskontinuums auswählen können) Durch die automatisierten Prüfsummen auf Dateisystemebene wird sichergestellt, dass keine unkorrigierte Beschädigung vorliegt. Andernfalls erhalten Sie einen E / A-Fehler und keine beschädigten Daten.
ein Lebenslauf vom
@ MichaelKjörling Nein, es gibt keine "Garantie" (verringert nur die Wahrscheinlichkeit von nicht erkannten Fehlern im Vergleich zu reinen Festplattenprüfungen um einen Betrag, den noch niemand quantifiziert hat! Daher weiß niemand wirklich, wie nützlich die ZFS-Prüfsumme ist :)) Sie können einfache Wrapper zum "Lesen" und "Schreiben" verwenden, die die Prüfsumme transparent für Sie erledigen. Man muss dieses schicke Ding nicht in den Kernelraum legen.
Höhlenmensch
3
@caveman nein, zfs ist nicht zum thema. Weder sind mögliche Implementierungen von RAID, die nicht mdadm sind. Ich möchte über mdadm wissen. Ich habe diese Antwort bereits so oft wie möglich abgelehnt, und Ihre Kommentare zu einer Antwort außerhalb des Themas, die weitere Informationen zur Antwort außerhalb des Themas enthält, helfen bei der ursprünglichen Frage nicht weiter.
BeowulfNode42
3

Diese Antwort ist das Ergebnis von Überlegungen, die auf den verschiedenen Beweisen basieren, die ich gefunden habe. Ich weiß nicht, wie die Kernel-Linux-Implementierung funktioniert, da ich kein Kernel-Entwickler bin und es eine ganze Menge unsinniger Fehlinformationen zu geben scheint. Ich gehe davon aus, dass der Linux-Kernel vernünftige Entscheidungen trifft. Meine Antwort sollte zutreffen, sofern ich mich nicht irre.

Viele Laufwerke verwenden ECCs (Fehlerkorrekturcodes), um Lesefehler zu erkennen. Wenn Daten beschädigt sind, sollte der Kernel eine URE (nicht behebbarer Lesefehler) für diesen Block von einem ECC-unterstützenden Laufwerk erhalten. Unter diesen Umständen (und es gibt eine Ausnahme unten) würde das Kopieren beschädigter oder leerer Daten über gute Daten Wahnsinn bedeuten. In dieser Situation sollte der Kernel wissen, welche Daten gut und welche schlecht sind. Laut dem ist es 2010 und RAID5 funktioniert noch… Artikel:

Betrachten Sie diese Alternative, von der ich weiß, dass sie von mindestens einigen Array-Anbietern verwendet wird. Wenn ein Laufwerk in einem RAID-Volume eine URE meldet, erhöht der Array-Controller die Anzahl und erfüllt die E / A-Anforderungen, indem der Block anhand der Parität neu erstellt wird. Anschließend wird auf der Festplatte, die die URE gemeldet hat (möglicherweise mit Verifizierung), ein erneuter Schreibvorgang ausgeführt. Wenn der Sektor fehlerhaft ist, wird der Mikrocode neu zugeordnet und alles wird in Ordnung sein.

Jetzt jedoch mit der Ausnahme: Wenn ein Laufwerk ECC nicht unterstützt, ein Laufwerk Daten beschädigt oder die Firmware besonders fehlerhaft ist, wird möglicherweise keine URE gemeldet, und dem Kernel werden beschädigte Daten übergeben. Im Fall von Dateninkongruenzen: Wenn Sie ein RAID1 mit zwei Festplatten oder ein RAID5 verwenden, kann der Kernel nicht wissen, welche Daten korrekt sind, auch wenn sie sich nicht in einem herabgesetzten Zustand befinden, da es nur eine Parität gibt Block und es wurde kein URE gemeldet. In einem RAID1 oder RAID6 mit 3 Festplatten würde ein einzelner beschädigter Block ohne URE-Flag nicht der redundanten Parität entsprechen (in Kombination mit den anderen zugeordneten Blöcken), sodass eine ordnungsgemäße automatische Wiederherstellung möglich sein sollte.

Die Moral der Geschichte lautet: Verwenden Sie Laufwerke mit ECC. Leider bieten nicht alle Laufwerke, die ECC unterstützen, diese Funktion an. Auf der anderen Seite sei vorsichtig: Ich kenne jemanden, der billige SSDs in einem RAID1 mit 2 Festplatten (oder einem RAID10 mit 2 Kopien) verwendet. Eines der Laufwerke gab bei jedem Lesevorgang eines bestimmten Sektors zufällig beschädigte Daten zurück. Die beschädigten Daten wurden automatisch über die richtigen Daten kopiert. Wenn die SSD ECCs verwendet hat und ordnungsgemäß funktioniert, sollte der Kernel die richtigen Korrekturmaßnahmen ergriffen haben.

sudoman
quelle
1
Ich dachte, alle modernen Festplatten haben eine Art internen ECC. Ob es wirksam, richtig oder fehlerhaft ist oder nicht, ist eine andere Sache. ECC muss intern im Laufwerk verwendet werden, um eine URE melden zu können. Silent Bit Rot, an dem ich am meisten interessiert bin, meldet eine URE nicht einmal auf Laufwerken, die sie unterstützen, da sie glauben, über die richtigen Daten zu verfügen, wenn sie dies nicht tun.
BeowulfNode42
Mit Bit Rot meine ich zufällig umgedrehte Bits. In jedem Fall ist der ECC so ausgelegt, dass er umgedrehte Bits erkennt. Laut Wikipedia ist die Reed-Solomon-Fehlerkorrektur ein verbreitetes ECC-Format, das 1960 erfunden wurde und immer noch in Blu-Ray-Disks + HDDs verwendet wird. Wenn Sie feststellen, dass dieser Algorithmus äußerst zuverlässig ist, sollte Ihre Frage ziemlich genau beantwortet werden, da anständige moderne Hardware per Definition genauso gut ist, wenn nicht sogar besser, selbst wenn Sie nicht genau wissen, wie anständig Hardware ist Es anschauen.
Sudoman
1
Bit Rot kann auch aufgrund anderer Probleme auftreten, z. B. wenn ein Problem dazu führt, dass die Laufwerksköpfe nicht ordnungsgemäß an der Stelle ausgerichtet sind, an der sie zu schreiben scheinen, und in benachbarte Sektoren übergehen. Es kann den Sektor reparieren, an dem es arbeiten wollte, aber der nahe gelegene Sektor wird beschädigt. Wenn zufällig die Daten + Ecc so überschrieben wurden, dass die ECC für den nahe gelegenen Sektor als in Ordnung meldet, wird das Laufwerk nie wissen, dass es ein Problem hat. Viel wahrscheinlicher ist es, dass eine betrügerische Software das Laufwerk anweist, fehlerhafte Daten zu schreiben. Die Festplatte speichert diese fehlerhaften Daten zuverlässig. zB ein schlechter Befehl dd
BeowulfNode42
2

Für den Schutz, den Sie möchten, würde ich mit RAID6 + die normale Offsite-Sicherung an 2 Standorten durchführen.

Ich persönlich schrubbe sowieso einmal in der Woche und sichere jede Nacht, wöchentlich und monatlich, je nach Wichtigkeit der Daten und Änderungsgeschwindigkeit.

djsmiley2k - CoW
quelle
1
Aber welche Funktionen zur Erkennung / Korrektur von Bit-Rot bietet das?
BeowulfNode42
1
RAID6 mit häufigem Scrubbing bietet einen gewissen Bit-Rot-Schutz, da durch die doppelte Parität effektiv drei Versionen desselben Blocks erstellt werden, sodass eine "Abstimmung" durchgeführt werden kann, welche Version richtig ist. AFAIK, RAID6-Scrubbing unter Linux macht genau das. Bitte korrigieren Sie mich, wenn ich falsch liege.
P.Péter
1
@ P.Péter Mir ist klar, dass die Mathematik ein Abstimmungssystem verwenden KÖNNTE, aber macht mdadm? Kennen Sie Unterlagen dazu oder haben Sie persönliche Erfahrungen gemacht, die Sie zu dieser Schlussfolgerung geführt haben? Besonders im Lichte von Ethans Antwort.
BeowulfNode42
Dies ist einige Zeit her, aber ich erinnere mich vage an das Lesen der mdadm RAID6-Mechanismen, bevor ich einen Kommentar verfasste. Entschuldigung, nicht sehr spezifisch. :( Ich denke, wir könnten einen echten Experten für mdadm gebrauchen ...
P.Péter
2

Ich habe nicht genug Repräsentanten, um einen Kommentar abzugeben, aber ich möchte darauf hinweisen, dass das mdadm-System unter Linux KEINE Fehler behebt. Wenn Sie festlegen, dass Fehler während einer Bereinigung von beispielsweise RAID6 "behoben" werden sollen, und wenn eine Inkonsistenz vorliegt, wird dies "behoben", indem angenommen wird, dass die Datenbereiche korrekt sind, und die Parität neu berechnet wird.

Ethan
quelle
1
Dies scheint eher unwahrscheinlich, es sei denn, ich verstehe Sie falsch. Meinen Sie damit, dass Daten aus beschädigten Blöcken häufig über korrekte Blöcke kopiert werden? Dies würde voraussetzen, dass der fehlerhafte Block nicht von einem Laufwerk stammt, das ECC unterstützt (und daher keine URE meldet), und dass Sie RAID5 oder RAID1 mit zwei Kopien (anstelle von RAID6, wie Sie vorgeschlagen haben) verwenden.
sudoman
@sudoman Wenn das Linux-MD-Subsystem während eines Scrubs eine Nichtübereinstimmung zwischen den Daten und der Parität feststellt, geht es blindlings davon aus, dass die Parität falsch ist, und schreibt sie basierend auf den Daten neu. Es ist möglich, die Doppelparität von RAID 6 zu verwenden, um herauszufinden, was falsch ist, aber das Linux MD-Subsystem tut dies nicht.
Mark
1
Ethan, ich nehme an, Sie haben keine Referenzen für diese Informationen? oder Beispiele für persönliche Erfahrungen, an die Sie gerne teilhaben lassen möchten? Angesichts der Tumbleweeds, die dieser Q generiert hat, wären sogar anekdotische Informationen hilfreich. Seit dieser Frage habe ich einige Probleme mit mdadm RAID1 für das Boot-Laufwerk, auf (billigen) USB-Sticks, wenn einer von ihnen kaputt ging. Einige Nachforschungen haben später ergeben, dass ein fehlerhafter USB-Stick nicht über genügend oder keine Fehlerprüfungen verfügt, oder er konnte nur keine Daten in einige Blöcke schreiben und keinen Schreibfehler erzeugen. Ich musste das Betriebssystem neu installieren.
BeowulfNode42
-2

bisschen rot fud.? sicher...

Ich denke, Sie müssen mit SEAGATE sprechen. (Vergiss es? Ist das die Ausrede?) Die Laufwerke verfügen jetzt alle über eine 100-Bit-ECC-Korrektur, die Sie benötigen, um die Fäulnis zuerst nachzuweisen.
Ich wette, du kannst nicht. (Es ist eine FUD-Sache, um die man sich sorgen muss, oder?) wie Angst vor Geistern oder der Nr. 13? und hier nicht getan. Nullbeweis ist passiert. und noch schlimmer, kein Grund dafür.

Definieren Sie zuerst, was Bit Rot bedeutet. autsch ... HDD: ECC prüft die Daten (sogar 1 Bit) gegen den ECC-100-Bit-Speicher. Wenn es falsch ist, wird es korrigiert. Wenn die SMART Engine weiterhin ausfällt, wird der Cluster oder Sektor auf SAS-Laufwerken logischerweise durch einen fehlerfreien Sektor ersetzt. Verwenden von Ersatzclustern. Dies repariert den Schaden. Ja, alle Laufwerke werden vom ersten bis zum letzten Tag fehlerhaft, von den ersten IBM-Laufwerken bis JETZT. Aber jetzt reparieren wir uns selbst. Lesen Sie die vollständigen Whitepapers von Seagate. endlos dort und lernen, wie ein Laufwerk funktioniert. OK?

Dies geht so lange weiter, bis Ihnen die Ersatzteile ausgehen (Festplattenhirn, intelligent) und dann SMART END OF LIFE schreit. (oder noch früher, wie HP) Bei einem HP P420-Controller wird dies die ganze Zeit beobachtet. Meins schickt mir sogar eine E-Mail, in der NÄHE VON ERSATZ-Clustern angezeigt wird. Manchmal gehen die Ersatzteile viel schneller, was bald ein sicheres Zeichen des Untergangs ist (10 Jahre alt, weniger Junky Sata).

Ich rufe BOGUS und FUD an.

Ich vermute, jemand hat die Daten falsch geschrieben, aus welchen Gründen auch immer. Läuft kein ECC-Speicher? Hoppla, echte Server verfügen über ECC-RAM. Virus infiziert. oder Stromausfall beim Schreiben (keine USV>?)? oder hat schlechtes gedächtnis. oder ESD beschädigt. Oder Netzteil macht jede Menge Lärm (schlecht)

Ich rufe hier FUD an. Es tut uns leid,

savvy2
quelle
1
Ich habe gerade klargestellt, dass ich über mein Heimsystem spreche, sodass ECC- und Server-Hardware außerhalb meiner Budget-Preisspanne liegt. Mein Heimlabor ist viel anfälliger für unerwartete Stromausfälle, selbst wenn die Mini-Ups oder andere zufällige Ereignisse wie ein Umsturz des Turms oder ähnliches auftreten. Es gibt viele andere Möglichkeiten, wie eine Festplatte angewiesen werden kann, die falschen Daten zu speichern, und dass die Festplatte die ECC-Bits für die falschen Daten speichert. Es ist mir egal, wie Fehler aufgetreten sind, ich möchte, dass sie einfach behoben werden.
BeowulfNode42