Was zählt als "großes" Raid 5-Array?

11

Aufgrund eines kürzlich aufgetretenen Problems mit einem Buffalo TeraStation NAS hier in meinem Büro habe ich Raid 5 untersucht.

Ich habe einige verschiedene Artikel gefunden, die über die Ungeeignetheit der Verwendung von RAID 5 in großen Arrays oder mit großen Festplatten sprechen

In diesem Beispielartikel wird auf Probleme beim Wiederherstellen eines Arrays mit großen Consumer-Laufwerken eingegangen.

Ich versuche herauszufinden, was als "groß" gilt.

Das NAS, das wir hier haben, ist ein Raid 5-Setup mit 4 Laufwerken. Jedes Laufwerk hat 1 TB. Ein Laufwerk ist ausgefallen und wurde ersetzt. Das Array wird derzeit neu erstellt.

Ist dieses Setup so groß, dass es wahrscheinlich ein Problem während des Wiederaufbaus gibt?

Wie zuverlässig ist dieses Setup für den täglichen Gebrauch?

rauben
quelle
2
Wie lange rechnet der Controller angesichts der üblichen Systemlast mit der Wiederherstellung? Was ist die MTBF der Festplatten? Wenn Sie diese beiden Nummern haben, kennen Sie die Wahrscheinlichkeit eines zweiten - und katastrophalen - Fehlers während der RAID-Wiederherstellung. Bedenken Sie, dass die Festplatten beim Wiederaufbau am stärksten beansprucht werden. Das obige Ergebnis ist daher eine Unterschätzung der Wahrscheinlichkeit eines doppelten Ausfalls.
MadHatter
3
Abgesehen davon wissen Sie, dass RAID kein Backup ist, oder?
cjc
5
@cjc, fügen Sie diese Perle der Weisheit zu jeder einzelnen RAID-Frage auf SF hinzu, oder lässt Sie etwas an dieser Frage denken, dass das OP RAID für ein Backup hält?
BlueCompute
Ja, das ist mir bewusst. Es ist alles gesichert, ich wollte nur den Aufwand, alles wiederherstellen zu müssen, weil sich das RAID-Array nicht richtig repariert hat.
Rob

Antworten:

18

Entwerfen der Zuverlässigkeit eines Festplattenarrays:

  1. Ermitteln Sie die URE-Rate Ihres Laufwerks (Hersteller möchten nicht über fehlerhafte Laufwerke sprechen, daher müssen Sie möglicherweise graben, um dies zu ermitteln. Sie sollte 1/10 ^ X betragen, wobei X normalerweise zwischen 12 und 18 liegt).
  2. Entscheiden Sie, welche Risikorate für Ihre Speicheranforderungen akzeptabel ist †. In der Regel ist dies eine Ausfallwahrscheinlichkeit von <0,5%, in einem "Scratch" -Speicher jedoch mehrere Prozent und für kritische Daten <0,1.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Ändern Sie für Arrays mit mehr als einer Paritätsfestplatte oder Spiegel mit mehr als zwei Festplattenpaaren im Spiegel 1die Anzahl der Festplatten mit Parität / Spiegel nach den Laufwerken im Array.

Ich habe also einen Satz von vier 1-TB-WD-Green-Laufwerken in einem Array. Sie haben eine URE-Rate von 1/10 ^ 14. Und ich benutze sie als Kratzspeicher. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%Risiko eines Fehlers beim Wiederherstellen des Arrays nach dem Ausfall eines Laufwerks. Diese eignen sich hervorragend zum Speichern meines Mülls, aber ich lege dort keine kritischen Daten ab.

† Das Ermitteln eines akzeptablen Fehlers ist ein langer und komplizierter Prozess. Es kann zusammengefasst werden als Budget = Risk * Cost. Wenn ein Fehler 100 US-Dollar kostet und eine Wahrscheinlichkeit von 10% besteht, sollten Sie dies tun über ein Budget von 10 US-Dollar verfügen, um dies zu verhindern. Dies vereinfacht die Ermittlung des Risikos, der Kosten verschiedener Fehler und der Art potenzieller Präventionstechniken erheblich - aber Sie haben die Idee. [Data Drives] = [Total Drives] - [Parity Drives]. Ein Zwei-Platten-Spiegel (RAID1) und RAID5 haben 1 Paritätslaufwerk. Ein Drei-Platten-Spiegel (RAID1) und RAID6 verfügen über zwei Paritätslaufwerke. Es ist möglich, mehr Paritätslaufwerke mit RAID1 und / oder benutzerdefinierten Schemata zu haben, aber untypisch.


Diese statistische Gleichung hat jedoch einige Einschränkungen:

  • Diese URE-Rate ist die angegebene Rate und ist in der Regel bei den meisten Laufwerken, die vom Fließband rollen, besser. Sie könnten Glück haben und ein Laufwerk kaufen, das um Größenordnungen besser ist als beworben. Ebenso könnte man einen Antrieb bekommen, der an Kindersterblichkeit stirbt.
  • Einige Fertigungslinien weisen fehlerhafte Läufe auf (bei denen viele Datenträger im Lauf gleichzeitig ausfallen). Daher hilft das Abrufen von Datenträgern aus verschiedenen Fertigungschargen, die Wahrscheinlichkeit eines gleichzeitigen Ausfalls zu verteilen.
  • Ältere Festplatten sterben eher unter dem Stress eines Umbaus ab.
  • Umweltfaktoren fordern ihren Tribut:
    • Festplatten, die häufig einem Wärmezyklus unterzogen werden, sterben mit größerer Wahrscheinlichkeit ab (z. B. wenn sie regelmäßig ein- und ausgeschaltet werden).
    • Vibrationen können alle möglichen Probleme verursachen - siehe Video auf YouTube, in dem die IT ein Festplattenarray anschreit .
  • "Es gibt drei Arten von Lügen: Lügen, verdammte Lügen und Statistiken" - Benjamin Disraeli
Chris S.
quelle
Das Laufwerk, das ich aus dem Gerät genommen habe, ist ein Samsung HD103SI 1 TB-Laufwerk. Ich glaube, die anderen drei verbleibenden Laufwerke sind gleich. Das Ersatzlaufwerk stammt von einem anderen Hersteller, ich habe die Details nicht zur Hand.
Rob
Es scheint, dass die Rate für dieses Laufwerk 1/10
Rob
1
Ich habe gerade die Gleichungen korrigiert, das Beispiel war korrekt, jetzt sind es beide. Ihr Array wäre 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. Sie haben eine Halterung an der Außenseite der Stelle, an der ^3sie sich innen befinden sollte. und es sollte noch eine Null in dieser 1/10 ^ 15 Sache geben.
Chris S
2
Ein 1-TB-Laufwerk hat eine Größe von 1000000000000 Byte, sodass es je nach URE-Rate etwas weniger als 3% | 0,3% ergibt.
user9517
1
@IanRingrose Dies ist statistisch gültig. Ich habe bereits auf Ihre spezifischen Bedenken eingegangen. Haben Sie etwas Relevantes hinzuzufügen, außer dem, was bereits angegeben wurde?
Chris S
9

Der Grund, warum dieser Artikel existiert, besteht darin, die Aufmerksamkeit auf nicht behebbare Bitfehlerraten auf Festplatten zu lenken. Insbesondere Ihre billigen "Heim-PC" -Disketten. Sie haben normalerweise eine Werksspezifikation von 1/10 ^ 14. Dies sind ungefähr 12,5 TB Daten. Wenn Sie ein RAID-5 mit 2 TB Festplatten ausführen, werden Sie ziemlich schnell getroffen.

Dies bedeutet, dass Sie entweder:

  • Verwenden Sie kleinere RAID-Gruppen und akzeptieren Sie mehr verschwendeten Speicherplatz.
  • Verwenden Sie RAID-6 und akzeptieren Sie die zusätzliche Schreibstrafe. (50% höher als RAID5)
  • Kaufen Sie teurere Festplatten - 'Server Grade' hat eine UBER-Spezifikation von 1/10 ^ 16, was bedeutet, dass dies ein strittiger Punkt ist. (1,2PB ist besser als 12,5 TB)

Ich würde normalerweise vorschlagen, dass RAID-6 im Allgemeinen der Weg nach vorne ist, aber es kostet Sie Leistung.

Sobrique
quelle