Optimales RAID 6 + 0-Setup für mehr als 40 4-TB-Festplatten

7

Ich richte einen JBOD mit 44 SAS-HDs mit 4 TB und 7200 U / min ein. Ich habe mich für RAID 60 entschieden, da ich den Schutz vor Laufwerksfehlern gegenüber den von RAID 10 angebotenen Leistungsverbesserungen bevorzuge. Mein Problem ist die Auswahl der optimalen Festplatten pro Bereich, die zu einer angemessenen Wiederherstellungszeit führen würden. Angenommen, ich lasse 4 Hot-Spares übrig, ergibt dies 40 Festplatten für die folgenden möglichen RAID-Setups:

  • 2 Spannweiten mit 20 Festplatten, ~ 144 TB nutzbare Kapazität.
  • 4 Bereiche mit 10 Festplatten, ~ 128 TB nutzbare Kapazität.
  • 5 Bereiche mit 8 Festplatten, ~ 120 TB nutzbare Kapazität.
  • 8 Bereiche mit 5 Festplatten, ~ 96 TB nutzbare Kapazität.

Ich neige zu 4 Spannen von 10 Festplatten, da dies das beste Gleichgewicht zwischen Fehlertoleranz (2 von 10 Laufwerksausfällen pro tolerierter Spanne) und nutzbarer Kapazität (80% gegenüber 90% bei 2 Spannweiten von 20 Festplatten) zu bieten scheint.

Wie kann ich jedoch mit einer Wiederherstellungszeit für eine einzelne 10-Platten-Spanne rechnen? Die Websuche zeigt, dass selbst eine Spannweite von 10 Festplatten möglicherweise nicht realisierbar ist, da die Neuerstellung möglicherweise zu lange dauert, wodurch das Risiko eines zusätzlichen Laufwerksausfalls während der Neuerstellung besteht. Viele Ressourcen im Internet basieren jedoch auf weniger Festplatten oder Festplatten mit geringerer Kapazität.

Irgendwelche Gedanken darüber, was das optimale Setup für diese relativ große Anzahl von Festplatten ist?

HINWEIS: Es gibt eine Sicherungsrichtlinie für ca. 10 TB Daten, die jedoch nicht alle Daten sichern kann. Daher neige ich zu RAID 60 über RAID10. Mir ist klar, dass dies kein Ersatz für eine Sicherung ist, aber eine bessere Wiederherstellung nach einem Laufwerksausfall macht das System robuster, indem es die Möglichkeit bietet, Daten neu zu erstellen und dann in einen anderen Speicher zu migrieren, falls mehrere Festplattenfehler auftreten.

EDIT: Technische Daten:

  • Festplatten: Seagate 4 TB SAS 3,5 "HDD 7200 U / min, Enterprise-Qualität.
  • Controller: ServerRAID M5016-Controller, einschließlich RAID6-fähigem LSI2208-Chipsatz. Siehe: https://www.broadcom.com/products/storage/raid-on-chip/sas-2208 .
  • Gehäuse: Supermicro 4U-Speicher JBOD 45x3.5 mit redundanten 2x1400W-Leistungsmodulen.
  • Betriebssystem: CentOS Linux Version 7.1.1503 (Core).

Danke für die Hilfe.

Vince
quelle
2
Ehrlich gesagt, Festplatten mit 4 TB und 7200 U / min werden niemals eine "angemessene" Wiederherstellungszeit haben (abhängig von Ihrer Klassifizierung als "angemessen", denke ich). Ich garantiere, dass die Wiederaufbauzeit "lang" sein wird
Mark Henderson
2
Keine Erwähnung des Hardwaretyps, der Controller, HBAs / RAID-Controller, des Gehäuses, des Betriebssystems oder irgendetwas. Mehr Details sind besser. Wie kann jemand eine konkrete Empfehlung aussprechen?
ewwhite
1
RAID5 nicht rabattieren. Wenn 8 + 2 RAID6 akzeptabel ist, sollte dies auch 4 + 1 RAID5 sein. Ich würde denken, ein 4 + 1 RAID5-Array würde schneller wiederhergestellt als ein 8 + 2 RAID6-Array. Ich würde denken, dass die Wahrscheinlichkeit von 2 Festplattenfehlern in einem 4 + 1-RAID5-Array nicht viel größer wäre als die Wahrscheinlichkeit von 3 Festplattenfehlern in einem 8 + 2-RAID6-Array. 7 Bereiche von 4 + 2 RAID6 könnten ebenfalls eine Option sein, die schnellere Wiederherstellungszeiten ermöglicht. Das würde Ihnen 112 TB nutzbaren Speicherplatz geben, aber Sie würden nur ein paar heiße Ersatzteile bekommen.
Andrew Henle
2
Ein Teil von mir sagt, ZFS zu verwenden ... oder zumindest die Regeln von ZFS. Aber stattdessen 5 Spannweiten von 8 Festplatten.
ewwhite
1
Ich bin mir nicht sicher, da ich kein ZFS verwende. Dies würde wirklich stark von Ihren tatsächlichen Schreiblasten abhängen. ZFS sollte jedoch maximalen Speicherplatz bieten. Es ist robust, aber aus der Vergangenheit hat es immer noch seine Vorbehalte. In der Realität ist es am besten, einige Testaufbauten und Benchmarks unter verschiedenen simulierten Szenarien auszuprobieren.
Damon

Antworten:

1

Mit modernen Hardware-RAID-Controllern von Avago (LSI) oder Microsemi (Adaptec) sind RAID-Arrays mit 20 + 2 Festplatten vollkommen in Ordnung. Die Wiederherstellungszeit ist angemessen (weniger als 24 Stunden). Aktuelle Laufwerke weisen ohnehin sehr niedrige Ausfallraten auf. Ich würde definitiv 2 Felder verwenden.

Wazoox
quelle
Meine bisherigen Erfahrungen stimmen eher damit überein: Als ich den 44-Platten-JBOD auf eine 20 + 2-Konfiguration migrierte, fiel eines der Laufwerke aus und die Wiederherstellung dauerte ~ 30 Stunden. Ihr Rat steht jedoch im Gegensatz zu anderen Empfehlungen hier. Es wäre interessant zu erfahren, welche Nachteile kleinere RAID6-Bereiche wie 8 + 2 oder 10 + 2 haben, abgesehen vom Verlust der Festplattenkapazität. Beachten Sie, dass der JBOD und die Laufwerke 3 Jahre alt sind.
Vince
@Vince ja ich habe vergessen, dass du alte Hardware benutzt hast. Aber aus meiner Erfahrung in den letzten 15 Jahren hatte ich nach dem schrecklichen Seagate Barracuda-Debakel nie ein merkliches Problem mit mehreren Hundert RAID-Arrays mit 20 bis 24 Laufwerken. Außerdem habe ich in den letzten 8 Jahren nur HGST-Laufwerke verwendet und die Zuverlässigkeit ist so lächerlich hoch, dass ich nicht mehr schwitze (mit Helium-Laufwerken ist es noch lächerlicher; in den letzten 3 Jahren ist kein einziges bei mir ausgefallen). .
Wazoox
1
Vielen Dank. Das Modell der Laufwerke auf jedem JBOD ist WD WD4001FYYG und TOSHIBA MG03SCA400, beide auf Unternehmensebene. Ich habe 4 Hot-Spares pro JBOD sowie eine zusätzliche verfügbare Festplatte. Gut zu wissen, dass Sie gute Erfahrungen mit Spannweiten auf 20 Festplatten gemacht haben. Ich hatte auch, wenn auch auf eine Handvoll von 44 Festplatten-JBODs beschränkt. Wir haben hier auch die Richtlinie, JBOD und Speicher alle 5-6 Jahre zu ersetzen.
Vince
1
Ich werde dies als Antwort akzeptieren. Andere, die dies lesen, sollten jedoch beachten, dass dies von folgenden Faktoren abhängt: (1) Verwendung eines guten Hardware-RAID-Controllers und (2) Festplatten auf Unternehmensebene. Beachten Sie außerdem, dass die Wiederherstellungszeit relativ lang ist .
Vince
3

Bei 4 TB 7.2k-Laufwerken würde ich empfehlen, die Subarrays so klein wie möglich zu halten - tatsächlich rechtfertigen 5 Laufwerke die Verwendung von RAID 6 überhaupt nicht.

Mein 2c soll RAID 10 verwenden, wo Sie erwarten können, dass eine Wiederherstellung innerhalb von 12 Stunden abgeschlossen sein wird, was ein 20-TB-RAID 6-Array mit 5 Laufwerken höchstwahrscheinlich nicht kann.

Stellen Sie sicher, dass Sie die monatliche Datenbereinigung / Medienüberwachung / wie auch immer es hier heißt, aktivieren, um Lesefehler zu erkennen, bevor sie die Möglichkeit haben, eine Neuerstellung zu stoppen. Meistens, wenn eine Neuerstellung fehlschlägt, ist die Ursache nicht ein vollständig fehlerhaftes Laufwerk, sondern ein ziemlich alter, jedoch unentdeckter Lesefehler, der mit einem regelmäßigen Scrubbing hätte behoben werden können.

Zac67
quelle
danke für tipp in patrouille lesen. Dies wurde aktiviert, aber es ist immer gut zu wissen, dass andere es für wichtig halten. Ich neige zu 4 + 1 RAID5, mit der Einschränkung, dass der Wiederaufbau mehr als 12 Stunden dauern kann, aber wahrscheinlich weniger als 1 Tag.
Vince
3
Theoretisch könnte ein 5x 4 TB R5 innerhalb von 10 Stunden wiederhergestellt werden - vorausgesetzt, der Durchschnitt von 120 MB / s von / zu jedem Laufwerk ist und der Controller kann die Flüsse parallel verarbeiten. In der Praxis ist der Controller viel langsamer und ich würde ungefähr 30 Stunden erwarten.
Zac67
1

Aufgrund der hervorragenden Kommentare habe ich aus folgenden Gründen versucht, ein RAID60 zu erstellen, das aus 5 Bereichen mit jeweils 8 Festplatten besteht:

  1. Basierend auf der kürzlich durchgeführten Neuerstellung, die 2 Bereiche mit 20 Festplatten umfasste, schätze ich die Wiederherstellungszeit für die 8 + 2-Konfiguration als angemessen ein.

  2. Die nutzbare Kapazität ist im Vergleich zu Spannweiten mit einer größeren Anzahl von Festplatten (z. B. 10 oder 20 Festplatten pro Spannweite) geringfügig reduziert. Während der Verlust von 20 TB beträchtlich erscheint, bedeutet eine kleinere Spannweite, dass ein Wiederaufbau erreichbar ist, ein akzeptabler Kompromiss.

Ich werde diese Antwort mit allen zusätzlichen Informationen aktualisieren, die ich sammle.

Bearbeiten: RAID5 als praktikable Option entfernt.

Vince
quelle
Verwenden Sie niemals RAID-5. RAID-5 darf unter KEINEN Umständen mit Festplatten verwendet werden, die größer als 1 TB sind. Doppelte Parität ist bei sehr großen Festplatten obligatorisch, und das schon seit einem ganzen Jahrzehnt, siehe zdnet.com/article/why-raid-5-stops-working-in-2009
wazoox
1
Sie können RAID5 mit Unternehmens-SAS-Festplatten (10 KB) mit 1,2 TB und 1,8 TB verwenden ... aber im Allgemeinen sollten Sie dies nicht für große, langsame SATA- und Nearline-SAS-Laufwerke tun.
ewwhite
2
Wenn Sie sich für Informationen aus der realen Welt interessieren, erstellt mein RAID60 mit 5 Span 12-Festplatten (2 TB, 7,2 KB NL SAS) auf einer ServeRAID-Karte eine Festplatte in 12 bis 16 Stunden neu.
Brent
1

Auf einem so großen Array würde ich wirklich RAID10 oder das entsprechende gespiegelte ZFS-Setup verwenden. Sie können ein globales Hot-Spares-RAID10 + 2 mit 42 Festplatten (für ca. 82 TB nutzbaren Speicherplatz) einrichten, das mit einer sehr schnellen Wiederherstellungszeit einen hervorragenden Schutz vor Festplattenfehlern bietet .

Wenn Sie wirklich, wirklich RAID6 verwenden möchten, neige ich zu 5x 10-Festplatten-Spannweiten.

Shodanshok
quelle
Ich habe zuvor RAID10 verwendet und mich für RAID60 entschieden, da RAID10 meines Wissens nicht mehr als 1 Festplattenfehler unterstützt. Mit 100% iger Garantie für die Wiederherstellung, dh wenn 2 Festplatten ausfallen und beide dieselben Daten enthalten. Ist das richtig? Wenn ich davon ausgehe, dass dies korrekt ist, habe ich mich für RAID60 mit einer Spannweite von 8 + 2 entschieden.
Vince
Ein RAID10-Array schlägt nur fehl, wenn zwei gekoppelte Festplatten gleichzeitig ausfallen. Die Wahrscheinlichkeit eines solchen Ereignisses ist gering und konstant, unabhängig von der Arraygröße. Bei großen Arrays bedeutet dies, dass RAID10 mit der Ausfallsicherheit eines ähnlichen RAID6-Arrays übereinstimmt oder diese übertrifft, mit höherer Leistung und geringer Ausfallsicherheitszeit. Andererseits verlieren Sie viel mehr Speicherplatz als ein RAID6-Äquivalent.
Shodanshok