"Obligatorischer" freier Speicherplatz in einem SAN?

8

Ich bin kein Experte für SANs. Ich schreibe hier, um einige Hinweise auf kontinuierliche und ärgerliche Probleme zu erhalten, die unser Lieferant offenbar nicht lösen kann.

Wir besitzen ein ENHANCE ES3160P4 SAN mit 16 x 2 TB Festplatten, das für unser Videoüberwachungssystem geliefert wurde. Das SAN wurde vom Anbieter so konfiguriert, dass 14 Festplatten in einem RAID 5-Array verwendet werden und 2 Festplatten globale Ersatzteile sind. Das RAID ist normalerweise in zwei gleich große virtuelle Festplatten unterteilt, die sich über den gesamten RAID-Speicher erstrecken. Jeder ergibt etwas mehr als 12 TB. Jede virtuelle Festplatte entspricht einer einzelnen LUN, die an einen einzelnen Videoserver angeschlossen ist, der kontinuierlich Videodaten speichert und es Benutzern ermöglicht, bei Bedarf Aufzeichnungen abzurufen. Die LUNs sind mit NTFS formatiert und über iSCSI mit Windows Server 2012-Videoservern verbunden. Die Videoserver nutzen in der Regel den verfügbaren Speicherplatz voll aus.

Bei dieser Konfiguration fallen die Festplatten des SAN immer wieder aus, und jedes Mal kann das SAN das RAID nicht wiederherstellen, da in der Zwischenzeit eine andere Festplatte ausfällt. Wir haben das RAID in den letzten Monaten viermal verloren.

Dieses Problem scheint nicht durch ein schlechtes SAN-Beispiel verursacht zu werden, da wir drei andere Computer desselben Typs besitzen, die ähnlich konfiguriert sind und dieselben Probleme zu haben scheinen. Nur einer hat keine Probleme, aber im Moment ist es nicht ausreichend genutzt.

Nach einigen Monaten unbekannter Tests und Überprüfungen sagte der Lieferant schließlich, dass es bekannt ist, dass das SAN nicht zu 100% verwendet werden sollte, da es sich auch physisch schnell verschlechtern wird, und dass zur Lösung des Problems die virtuellen Festplatten erstellt werden sollten 10-15% des gesamten im RAID verfügbaren Speicherplatzes verbleiben.

Ich habe im Internet nach dem Problem gesucht und keine konkreten Aussagen gefunden. Es scheint mir sinnvoller zu sein, virtuelle Festplatten zu erstellen, die sich über das gesamte RAID erstrecken, und dann die LUNs nicht ausreichend zu nutzen (dh Windows freien Speicherplatz zu ermöglichen und eine Fragmentierung zu vermeiden). Wenn nicht, verstehe ich nicht, warum das ENHANCE SAN die Erstellung virtueller Festplatten ermöglicht, die sich über das gesamte RAID erstrecken, wenn es so "bekannt" ist, dass etwas freier Speicherplatz übrig bleiben muss, und warum der Anbieter das System zu Beginn so konfiguriert hat ... aber das ist ein anderer Punkt.

Am Ende wollen wir diese Situation lösen. Jeder Vorschlag wird angenommen. Wie gesagt, ich bin kein SAN-Experte, aber nach so vielen Problemen möchte ich wirklich verstehen, ob der Lieferant weiß, was los ist oder nicht, weil wir diese Situation nicht mehr akzeptieren können.

Vielen Dank im Voraus! Grüße

Bearbeiten: Festplattentyp Wie aus der Antwort hervorgeht, handelt es sich um relevante Informationen. Ich füge hinzu, dass es sich bei den Festplatten ausschließlich um das Western Digital-Modell WD2001FYYG-01SL3 handelt.

z2k
quelle
3
Jedes ordnungsgemäß entwickelte System würde Platz reservieren, wenn es Reserven benötigt, um ordnungsgemäß zu funktionieren, ohne es für die Verwendung durch Kunden anzubieten. Snapshots benötigen möglicherweise Speicherplatz und Copy-on-Write-Dateisysteme, aber diese haben normalerweise eine kleine Reserve für diese Zwecke. Zumindest standardmäßig, was natürlich von den Benutzern überschrieben werden kann, wenn sie bereit sind, das Risiko einzugehen.
Ptman
Zumindest die Festplatten sehen gut aus, sie sind rund um die Uhr SAS-Festplatten, aber sie sollten nicht so oft ausfallen ...
Sven
4
Das iossue ist kein freier Speicherplatz, es ist eine idiotische Konfiguration. 14 Scheiben in einem Raid 5 sind laut Mathematik nicht stabil, so einfach ist das. Sogar Raid 6 kann es besteuern. Im Allgemeinen ist ein Raid mit 2-TB-Discs statistisch nicht stabil. Zeitraum.
TomTom
1
@ TomTom: Wenn Sie denken, dass es einfache Mathematik ist, beantworten Sie bitte die Frage, die die Mathematik zeigt. Meine Serviettenmathematik besagt, dass das Array stabil ist, wenn das Lesen von 13 * 2 TB zum Wiederherstellen eines verschlechterten Arrays wahrscheinlich nicht fehlschlägt. Raid 6 ist natürlich besser, das ist stabil, wenn beim Wiederaufbau wahrscheinlich kein doppelter Fehler auftritt.
MSalters
4
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.Dies liegt genau daran, dass die Festplatten, wie TomTom sagt, für RAID5 zu groß sind. Und wahrscheinlich auch RAID 6, FWIW. Ihre Chancen auf einen erfolgreichen Wiederaufbau liegen bei weitem nicht bei 100%, und Sie wissen dies, weil Sie selbst angegeben haben, dass Sie innerhalb weniger Monate "wie 4" erfolglose Wiederaufbauten hatten. Ihre RAID-Konfiguration ist idiotisch und Ihr Anbieter ist inkompetent, so einfach ist das.
HopelessN00b

Antworten:

10

Wie Sie beschreiben, besteht das Hauptproblem darin, dass sie sich entschieden haben, ein RAID5 für ein so großes Array zu verwenden, was für dieses Setup eine ziemlich schlechte Wahl ist, und zwar genau aus dem Grund, aus dem Sie feststellen, dass ein Ausfall einer zweiten Festplatte während der Wiederherstellung alles kaputt macht. und dieser zweite Fehler ist nur allzu wahrscheinlich, um dieses Risiko einzugehen.

Wenn sie stattdessen z. B. ein RAID6 verwendet hätten, würde ein Ausfall einer zweiten Festplatte während der Wiederherstellung nicht zu einem ausgefallenen Array führen, und die Wiederherstellung könnte normal verlaufen, und zwar auf Kosten einer Festplatte mit einer Nettospeicherkapazität und einer bestimmten Auswirkung auf die Leistung.

Ich kann nicht sehen, wie das Belassen von 15% freiem Speicherplatz bei diesem Problem überhaupt helfen würde, und obwohl dies aus Sicht der Leistung für das Dateisystem eine gute Idee sein könnte oder nicht, hängt dies eindeutig nicht mit dem fehlerhaften RAID zusammen. Ich nenne das Bullshit.

Trotzdem kann ich mich nicht wundern: Dass dies innerhalb weniger Monate mehrmals passiert, scheint selbst für ein RAID5-System zu viel zu sein. Ich würde vorschlagen, die verwendeten Festplattentypen zu untersuchen - es könnte sein, dass Ihr Anbieter billige Desktop-Laufwerke anstelle von 24/7-Laufwerken verwendet, die für die Verwendung in einem solchen System zertifiziert sind.

Sven
quelle
Vielen Dank für Ihre Beiträge. Ich habe die Frage bearbeitet und den Festplattentyp hinzugefügt.
z2k
2

Ich verstehe voll und ganz, dass dies ein alter Beitrag ist, aber da ich weiterhin große RAID5-Arrays in der Produktion sehe, möchte ich hier meine Gedanken hinzufügen.

  • Zu häufig ausfallende Festplatten sind im Allgemeinen ein Fall von Überhitzung und / oder zu starken Vibrationen, die bei schlecht entwickelten Systemen oder an schlechten Orten auftreten können

  • so große RAID5 - Arrays werden sollte stark vermieden. In der Regel ist es viel besser, ein RAID6-Array als ein RAID5 + -Hotspare-Array zu haben. Im OP-Fall war es viel besser, 2x Paritätsfestplatte in einer RAID6-Konfiguration zu haben, als 1x Paritätsfestplatte mit 2x globalen Hotspares zu haben.

  • Es ist wichtig, ein zuverlässiges System für die Fehler- und Statusmeldung zu haben: Ein unwissentlich verschlechtertes, nicht überwachtes Array ist ein Rezept für eine Katastrophe.

Shodanshok
quelle
weiterhin große RAID5-Arrays in der Produktion "Größer muss besser sein!", richtig? Ich möchte auch hinzufügen, dass solch große Arrays aufgrund der schlechten Geometrie und der Konkurrenz zwischen mehreren LUNs, die von demselben Array gemeinsam genutzt werden, im Allgemeinen eine SCHRECKLICHE Leistung aufweisen , selbst wenn die Arrays mit RAID6 erstellt wurden. IME sind fast die größten Arrays, die ich empfehlen würde, 4 + 1 RAID5 und 8 + 2 RAID6. Einige High-End-Controller können einige Leistungsprobleme bei größeren Arrays verbergen, aber der beste Controller aller Zeiten hilft nicht, die Wiederherstellungszeiten zu verbessern.
Andrew Henle