Was ist genau ein URE?

13

Ich habe mir in letzter Zeit RAID5 gegen RAID6 angesehen und stelle immer wieder fest, dass RAID5 aufgrund der URE-Bewertung und der zunehmenden Größe der Laufwerke nicht mehr sicher genug ist. Grundsätzlich besagt der größte Teil des Inhalts, den ich gefunden habe, dass in RAID5, falls Sie einen Festplattenfehler haben und der Rest Ihres Arrays 12 TB groß ist, Sie fast 100% Chance haben, eine URE zu erreichen und Ihre Daten zu verlieren.

Die 12-TB-Zahl ergibt sich aus der Tatsache, dass Festplatten mit 10 ^ 14-Bit gelesen werden, um eine URE zu erreichen.

Nun, es gibt etwas, das ich hier nicht verstehe. Ein Lesevorgang wird vom Kopf ausgeführt, der auf den Sektor geht. Dies kann dazu führen, dass der Lesevorgang fehlschlägt, wenn entweder der Kopf stirbt oder der Sektor stirbt. es kann auch sein, dass das lesen aus einem anderen grund nicht funktioniert (ich weiß nicht, wie eine vibration den kopf zum springen gebracht hat ...). Lassen Sie mich also alle drei Situationen ansprechen:

  • das lesen klappt nicht: das ist doch nicht unwiederbringlich, oder? es kann erneut versucht werden.
  • der kopf stirbt: das wäre sicher nicht wiederherstellbar, aber das bedeutet auch, dass die volle platte (oder zumindest die seite) nicht lesbar wäre, es wäre alarmierender, nicht wahr?
  • der sektor stirbt: auch völlig nicht wiederherstellbar, aber hier verstehe ich nicht, warum die 4 TB Festplatte für die URE mit 10 ^ 14 und die 8 TB für die URE mit 10 ^ 14 bewertet sind, das würde bedeuten, dass die Sektoren auf der 8 TB (höchstwahrscheinlich neuere Technologie) sind halb so zuverlässig wie die 4 TB, was keinen Sinn ergibt.

Wie Sie sehen, ergibt keiner der drei von mir identifizierten Fehlerpunkte einen Sinn. Also, was genau ist eine URE, ich meine konkret?

Gibt es jemanden, der mir das erklären kann?

Bearbeiten 1

Nach der ersten Antwortwelle scheint es, dass der Sektor versagt hat. Gut ist, dass Firmware, RAID-Controller und OS + -Dateisystem über Verfahren verfügen, um dies frühzeitig zu erkennen und Sektoren neu zuzuordnen.

Nun, ich weiß jetzt, was ein URE ist (eigentlich ist der Name ziemlich selbsterklärend :)).

Ich bin immer noch verwirrt über die zugrunde liegenden Ursachen und vor allem die stabile Bewertung, die sie geben.

Einige schrieben den ausfallenden Sektor externen Quellen (kosmischen Wellen) zu. Ich bin dann überrascht, dass die URE-Rate dann auf der Anzahl der Lesevorgänge und nicht auf dem Alter basiert. Die kosmischen Wellen sollten in der Tat eine ältere Platte stärker beeinträchtigen, nur weil sie belichtet wurde mehr, ich denke, das ist eher eine Fantasie, obwohl ich mich irren könnte.

Nun kommt der andere Grund, der sich auf den Verschleiß der Scheibe bezieht, und einige wiesen darauf hin, dass höhere Dichten schwächere magnetische Domänen ergeben, was durchaus Sinn macht und ich würde der Erklärung folgen. Aber wie hier zu erklären ist , werden die neueren Festplatten unterschiedlicher Größe meistens dadurch erhalten, dass mehr oder weniger der gleichen Platte (und dann der gleichen Dichte) in das Festplattengehäuse eingelegt wird. Die Sektoren sind gleich und alle sollten die gleiche Zuverlässigkeit haben. Daher sollten größere Festplatten eine höhere Bewertung als kleinere Festplatten haben, wobei die Sektoren weniger gelesen werden. Dies ist nicht der Fall. Warum? Das würde jedoch erklären, warum die neueren Festplatten mit neuerer Technologie keine bessere Bewertung erhalten als die alten, einfach weil der bessere Tech-Gewinn durch den Verlust aufgrund höherer Dichte ausgeglichen wird.

Meme
quelle
"URE und um Ihre Daten zu verlieren" afaik (und ich kann mich irren), bedeutet eine URE nur, dass einige Daten verloren gehen, nicht alle - und Sie können den Neuaufbau erneut versuchen, nachdem Sie die URE getroffen haben. Das heißt, Raid 10 oder ZFS ist irgendwie, wo es in diesen Tagen ist.
Sirex
1
" Sektoren [auf neueren Discs] sind halb so zuverlässig wie [auf alten], das ergibt keinen Sinn " Ich bin mir nicht sicher, ob ich damit einverstanden bin. Da die Magnetzonen immer kleiner werden (was höhere Datendichten in einem Paket gleicher Größe implizieren), ist es sehr wahrscheinlich, dass sie immer anfälliger für versehentliches Löschen werden (lokale Gammastrahlenemissionen, kosmisches Strahlenereignis usw.). Diese zunehmende Anfälligkeit für moderne Laufwerke ist der Grund, warum keiner von uns nicht RAID-konforme Laufwerke in wichtigen Bereichen einsetzen würde, und ein Grund, warum die meisten von uns RAID-5 aufgegeben haben.
MadHatter
Das eigentliche Problem hierbei ist, dass viel zu viele RAID-Arrays eine einzelne URE in einen Gesamtarray-Fehler verwandeln. Eine einzelne URE sollte den Verlust eines einzelnen RAID-Blocks verursachen. Lassen Sie das Dateisystem herausfinden, ob dieser Block überhaupt verwendet wurde. Wahrscheinlich spielt es keine Rolle.
MSalters
1
@Memes nein, die Nummern löschen sich aus. Doppelt so viele Sektoren bieten auch doppelt so viele Fehlerquellen, sodass die gleiche Lesefehlerrate auf Byte-Basis der gleichen Zuverlässigkeit entspricht. Welches ist, warum es in erster Linie verwendet wird.
Hobbs

Antworten:

12

Eine URE ist ein nicht behebbarer Lesefehler. Es ist etwas passiert, das dazu geführt hat, dass das Lesen eines Sektors fehlgeschlagen ist, den das Laufwerk nicht reparieren kann. Die Laufwerkselektronik ist ausgereift, sie gibt die Daten nur weiter, wenn sie korrekt von der Festplatte gelesen wurden. Die Antriebselektronik versucht mehrmals, einen fehlerhaften Sektor zu lesen, bevor sie ihn für beschädigt erklärt.

Was verursacht den Lesefehler? Ich bin hier kein Experte (es kommt zu einer Armbewegung), aber die Alterung des Laufwerks kann dazu führen, dass Fertigungstoleranzen relevant werden. Magnetische Domänen können geschwächt werden. Kosmische Strahlung kann Schäden verursachen usw. Im Wesentlichen ist es ein zufälliger Fehler.

Wie wirkt sich dies auf RAID 5 aus?

Ein RAID 5 besteht aus Block Level Striping mit verteilter Parität. Die Paritätsblöcke werden durch XOR-Verknüpfung der Bits aus den Datenblöcken berechnet. Die XOR-Funktion sagt im Grunde, wenn alle Bits gleich sind, ist das Ergebnis 0, andernfalls ist es 1. Wenn Sie die Parität berechnen, nehmen Sie die ersten 2 Bits und XOR sie dann XOR das Ergebnis mit dem nächsten Bit und so weiter, z

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

Die XOR-Funktion ist so beschaffen, dass die Daten, die sich auf der Festplatte befinden sollten, aus den verbleibenden Festplatten wiederhergestellt werden können, wenn eine Festplatte ausfällt und ersetzt wird.

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

Wie Sie sehen, können die beschädigten Daten durch XOR-Verknüpfung der verbleibenden Daten und der Parität wiederhergestellt werden.

Wie wirkt sich eine URE darauf aus?

Eine URE ist nur während einer RAID 5-Wiederherstellung von Bedeutung.

Wenn Sie ein RAID 5 rekonstruieren, müssen Sie viel lesen. Jeder Datenblock muss gelesen werden, um die Daten auf der neuen Festplatte zu rekonstruieren. Wenn eine URE auftritt, können die Daten für den betreffenden Block nicht wiederhergestellt werden, sodass Ihre Daten inkonsistent sind. Bei ausreichend großen Platten in einem ausreichend großen R5 überschreitet die Anzahl der zur Rekonstruktion der ersetzten Platte gelesenen Bits den URE-Wert von beispielsweise 1 Bit bei 10 ^ 14 Lesevorgängen.

user9517
quelle
2
Eine einzelne 8-TB-Disc verfügt über mehr als 6 · 10 ^ 13 Bits. Mit nur drei solchen Discs in einem RAID-5-System ist es also wahrscheinlicher, dass während einer Rekonstruktion eine URE durchgeführt wird . Oh, und +1 von mir.
MadHatter
3
Die Behauptung (geschrieben in der Frage und in einigen Antworten und Kommentaren, auch in anderen Fragen, tatsächlich im ganzen Internet), dass nach dem Lesen von 12 TB ein Lesefehler fast sicher ist, ist falsch. Glaubst du es nicht? Nicht. Weiß es. Lesen Sie 12 (oder mehr) TB von einer Ihrer Festplatten und stellen Sie fest, dass kein Fehler aufgetreten ist. Bitte tu es und beende diesen Mythos. Vielen Dank.
David Balažic
1
@ IanKemp Nein, ist es nicht. Ich versuchte es. Das hast du offensichtlich nicht getan. (Auch die bessere Bewertung bewegt nur den Mythos ein wenig, keine wirkliche Änderung)
David Balažic
1
@ DavidBalažic Offensichtlich macht Ihre Stichprobengröße eins die gesamte Wahrscheinlichkeitstheorie ungültig! Ich schlage vor, Sie reichen ein Papier beim Nobelkomitee ein.
Ian Kemp
1
@IanKemp Wenn jemand behauptet, dass alle Zahlen durch 7 teilbar sind und ich EINEN finde, der nicht ist, dann kann ein einziger Fund eine ganze Theorie ungültig machen. Übrigens hat noch keine einzige Person den Mythos in der Praxis (durch Experimente) bestätigt, oder? Warum sollten sie, wenn Glaube mehr als Wissen ist ...
David Balažic
9

Also, was genau ist eine URE, ich meine konkret?

Festplatten speichern nicht einfach die Daten, nach denen Sie fragen. Aufgrund der immer kleiner werdenden Magnetdomänengrößen und der Tatsache, dass Festplatten Daten eher analog als binär speichern (die Festplattenfirmware erhält ein analoges Signal vom Plattenteller, das in ein binäres Signal übersetzt wird, und diese Übersetzung ist es) Teil der geheimen Soße des Herstellers), gibt es praktisch immer ein gewisses Maß an Fehlern in einem Lesevorgang, die ausgeglichen werden müssen.

Um sicherzustellen, dass Daten zurückgelesen werden können, werden auf der Festplatte auch Vorwärtsfehlerkorrekturdaten zusammen mit den Daten gespeichert, die Sie zum Speichern angefordert haben.

Unter normalen Betriebsbedingungen reichen die FEC-Daten aus, um die Fehler im vom Plattenteller zurückgelesenen Signal zu korrigieren. Die Firmware kann dann die ursprünglichen Daten rekonstruieren, und alles ist in Ordnung. Dies ist ein wiederherstellbare Lesefehler , die in SMART als ausgesetzt ist Lesefehlerrate Attribut (SMART - Attribut 0x01) und / oder Hardware - ECC Recovered (SMART - Attribut 0xC3).

Wenn sich das Signal aus irgendeinem Grund unter einen bestimmten Punkt verschlechtert, reichen die FEC-Daten nicht mehr aus, um die ursprünglichen Daten zu rekonstruieren. An diesem Punkt, so die Theorie, wird die Firmware immer noch erkennen können, dass die Daten nicht zuverlässig zurückgelesen werden konnten, aber es kann nichts dagegen unternommen werden. Wenn mehrere solcher Lesevorgänge fehlschlagen, muss die Festplatte den Rest des Computers irgendwie darüber informieren, dass der Lesevorgang nicht erfolgreich durchgeführt werden konnte. Dies geschieht durch Signalisieren eines nicht behebbaren Lesefehlers . Dies erhöht auch den Zähler für gemeldete nicht korrigierbare Fehler (SMART-Attribut 0xbb).

Ein nicht behebbarer Lesefehler oder URE ist einfach ein Bericht, der aus irgendeinem Grund nicht ausreichte, um die ursprünglich gespeicherten Daten zu rekonstruieren.

Beachten Sie, dass die URE-Sätze statistisch sind . Sie werden auf keine Festplatte stoßen, auf der Sie genau 10 ^ 14 (oder 10 ^ 15) - 1 Bits erfolgreich lesen können, und dann schlägt das nächste Bit fehl. Vielmehr ist es eine Aussage des Herstellers, dass , wenn Sie durchschnittlich 10 ^ 14 Bits lesen, Sie irgendwann während dieses Prozesses auf einen unlesbaren Sektor stoßen.

Beachten Sie außerdem, dass die URE-Raten in Bezug auf die gelesenen Sektoren pro Bit angegeben sind . Aufgrund der Art und Weise, wie Daten auf den Platten gespeichert werden, kann die Festplatte nicht erkennen, welcher Teil eines Sektors fehlerhaft ist. Wenn also ein Sektor die FEC-Prüfung nicht besteht, wird der gesamte Sektor als fehlerhaft eingestuft.

ein CVn
quelle
OK, es scheint also darauf hinzudeuten, dass der Sektor versagt. Ich verstehe die Statistiksachen total, keine Sorge. Ich sehe auch hier, dass die Zuverlässigkeit des Sektors mit zunehmender Dichte abnimmt, aber das macht immer noch keinen Sinn. Neuere Festplatten haben normalerweise die gleiche Plattendichte, unabhängig von der physischen Größe. Die 4 TB haben nur weniger Platten als die 6 TB. Grundsätzlich sind die Sektoren gleich, weshalb die 8 TB keinen statistisch höheren Wert erreichen können, gibt es doppelt so viele Sektoren, sodass jeder (statistisch) halb so oft gelesen wird. sie sollten dann weniger scheitern, nein?
Memes
3

der sektor stirbt: auch völlig nicht wiederherstellbar, aber hier verstehe ich nicht, warum die 4 TB Festplatte für die URE mit 10 ^ 14 und die 8 TB für die URE mit 10 ^ 14 bewertet sind, das würde bedeuten, dass die Sektoren auf der 8 TB (höchstwahrscheinlich neuere Technologie) sind halb so zuverlässig wie die 4 TB, was keinen Sinn ergibt.

Die Spezifikation lautet normalerweise " Beim Lesen von n Bits wird durchschnittlich 1 Fehler erkannt ", sodass die Laufwerksgröße keine Rolle spielt. Es ist wichtig, ob Sie das Risiko berechnen, dass ein Fehler auf Ihrem Laufwerk und Ihrer Workload auftritt. Der Hersteller gibt jedoch nur an, dass zum Auffinden eines Fehlers n Bits erforderlich sind (im Durchschnitt nicht garantiert).

Beispiel: Wenn Sie ein 1-TB-Laufwerk kaufen, müssen Sie es ungefähr 12 Mal lesen, um einen Fehler zu finden, während es bei einem 8-TB-Laufwerk beim zweiten Lesevorgang auftreten kann - aber die Anzahl der gelesenen Bits ist bei beiden gleich, sodass die Qualität gleich ist der Magnetspindeln ist in etwa gleich.

Was Sie für einen höheren Preis bezahlen, sind andere Faktoren, die Fähigkeit, 8 TB in den physischen Raum von 1 TB zu stopfen, der stark reduzierte Energieverbrauch, weniger Kopfstöße beim Bewegen des Laufwerks usw.

user121391
quelle
0

Ich denke, @Michael Kjörling hat klar geantwortet.

Wenn die Platte liest, erkennt der Kopf die Richtung der magnetischen Domäne und sendet dann ein elektronisches Signal aus, das analog ist. Wir gehen davon aus, dass die Firmware eine 1 geben sollte, wenn sie eine Spannung von mehr als 0,5 V empfängt, aber das Magnetfeld zu schwach ist, sodass der Kopf nur ein Signal mit 0,499 V sendet und ein Fehler auftritt. Wir brauchen die FEC, um diesen Fehler zu beheben.

Hier ist ein Beispiel: Sektordaten sollten 0x0F23 sein, wir codieren sie mit 0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30. Jetzt bekommen wir die FEC und schreiben sie nach dem Sektor. Wenn wir lesen, lesen wir 0x0E23 und FEC 0x30, es stimmt nicht überein. Nach einigem Rechnen fanden wir, dass es 0x0F23 sein sollte. Aber wenn wir 0x0E13 und 0x30 haben, ODER wenn wir 0x0E23 und 0x32 haben, können wir nicht die richtige berechnen.

Diese Bewertung ist so niedrig, es sei denn, die Festplattenmanufaktur liest PBs und EBs-Daten könnten einen stabilen Wert erhalten. Sie geben also den Wahrscheinlichkeitswert aus: Wenn Sie 10 ^ 14-Bit-Daten lesen, können Sie einmal angetroffen werden. Da es sich um einen Wahrscheinlichkeitswert handelt, sind Sie möglicherweise auf einen Wert gestoßen, nachdem Sie nur 1 Sektordaten gelesen haben. Möglicherweise sind Sie auf einen Wert gestoßen, bis Sie 50 TB Daten gelesen haben. Und dieser Wert hatte nichts mit der Festplattenkapazität zu tun, sondern nur mit der Datengröße, die Sie gelesen haben. Wenn Sie eine 4-TB-Festplatte sechsmal mit Daten lesen, entspricht diese Chance dem viermaligen Lesen einer 6-TB-Festplatte oder dem dreimaligen Lesen einer 8-TB-Festplatte.

Harley
quelle