Wenn ich Server spezifiziere, wie (ich würde annehmen) viele Ingenieure, die keine Experten für Speicher sind, gehe ich im Allgemeinen auf Nummer sicher (und bin vielleicht ein Sklave des Marketings), indem ich auf mindestens 10k SAS-Laufwerke standardisiere (und daher Enterprise-Upgrade mit einem 24x7-Arbeitszyklus usw. für "System" -Daten (normalerweise Betriebssystem und manchmal Apps), und reservieren Sie die Verwendung von 7,2-KByte-Mid- / Nearline-Laufwerken für die Speicherung von Nicht-Systemdaten, bei denen die Leistung keine Rolle spielt Faktor. Dies setzt voraus, dass 2,5-Zoll-Festplatten (SFF-Festplatten) vorhanden sind, da 3,5-Zoll-Festplatten (LFF-Festplatten) nur für Anforderungen mit hoher Kapazität und niedrigem IOP wirklich relevant sind.
In Situationen, in denen es keine große Menge an Nicht-Systemdaten gibt, platziere ich sie im Allgemeinen auf denselben Festplatten / Arrays wie die Systemdaten, was bedeutet, dass der Server nur 10k SAS-Laufwerke hat (im Allgemeinen ein "One Big RAID10" -Typ von Setup in diesen Tagen). Nur wenn die Größe der Nicht-Systemdaten von Bedeutung ist, sollte diese normalerweise auf einem separaten Array von 7,2-KByte-Mid- / Nearline-Festplatten gespeichert werden, um die Kosten pro GByte niedrig zu halten.
Dies hat mich zu der Frage veranlasst: Könnten in einigen Situationen diese 10-k-Festplatten im RAID10-Array durch 7,2-k-Festplatten ersetzt werden, ohne dass dies erhebliche negative Folgen hätte. Mit anderen Worten, bin ich manchmal überfordert (und halte die Hardwarehersteller bei Laune), indem ich mich an ein Minimum von 10.000 "Enterprise" -Datenträgern halte, oder gibt es einen guten Grund, mich immer an dieses Minimum zu halten?
Nehmen Sie zum Beispiel einen Server, der als Hypervisor mit einigen VMs für ein typisches kleines Unternehmen (z. B. 50 Benutzer) fungiert. Das Unternehmen verfügt über durchschnittliche E / A-Muster ohne besondere Anforderungen. Typisches Büro von Montag bis Freitag zwischen 9:00 und 17:00 Uhr, mit Backups, die einige Stunden pro Nacht ausgeführt werden. Die VMs könnten möglicherweise ein DC- und ein Datei- / Druck- / App-Server sein. Der Server verfügt über ein RAID10-Array mit 6 Festplatten zum Speichern aller Daten (System- und Nicht-Systemdaten). Für meinen Laien sieht es so aus, als würden Mid- / Nearline-Festplatten gut funktionieren. Ein Beispiel für HP Festplatten:
- Arbeitslast: Midline-Festplatten sind für eine Arbeitslast von <40% ausgelegt. Da das Büro nur 9 Stunden am Tag geöffnet ist und die durchschnittliche E / A-Auslastung in diesem Zeitraum wahrscheinlich nicht annähernd maximal ist, ist es unwahrscheinlich, dass die Arbeitslast 40% übersteigt. Selbst nach ein paar Stunden intensiver I / O-Vorgänge in der Nacht für Backups würde es meiner Schätzung nach immer noch unter 40% liegen.
- Geschwindigkeit: Obwohl die Festplatten nur 7,2 KB groß sind, wird die Leistung durch die Verteilung auf sechs Festplatten verbessert
Meine Frage: Ist es sinnvoll, mindestens 10-KByte-SAS-Laufwerke zu verwenden, oder sind 7,2-KByte-Midline- / Nearline-Laufwerke in vielen Situationen mehr als ausreichend? Wenn ja, wie kann ich feststellen, wo die Linie ist, und vermeiden, ein Sklave der Unwissenheit zu sein, indem ich auf Nummer sicher gehe?
Ich habe hauptsächlich Erfahrung mit HP Servern, daher kann das oben Gesagte ein bisschen HP-Charakter haben, aber ich würde annehmen, dass die Prinzipien ziemlich herstellerunabhängig sind.
Antworten:
Hier gibt es eine interessante Schnittstelle zwischen Serverdesign, Festplattentechnologie und Wirtschaftlichkeit:
Siehe auch: Warum sind LFF-Datenträger (Large Form Factor) immer noch recht verbreitet?
Aus den oben genannten Gründen konzentrieren sich Hersteller in der Regel auf 1U / 2U-Server mit 8-24 2,5-Zoll-Laufwerkschächten.
3,5-Zoll-Festplatten eignen sich für Anwendungsfälle mit niedrigem IOP und hoher Kapazität (2 TB +). Sie eignen sich am besten für externe Speichergehäuse oder SAN-Speicher, die durch eine Art Caching geschützt sind. In Unternehmen mit 15.000 U / min sind sie nur bis zu 600 GB verfügbar.
2,5 "-Disketten mit 10.000 U / min sind für höhere IOPS-Anforderungen vorgesehen und stehen im Allgemeinen mit einer Kapazität von bis zu 1,8 TB zur Verfügung.
2,5-Zoll-Laufwerke mit 7,2.000 U / min sind ein schlechter Anruf, da sie weder Kapazität, Leistung, Langlebigkeit noch Preisvorteile bieten. ZB liegen die Kosten eines 900-GB-SAS-Laufwerks mit 10.000 U / min sehr nahe an denen eines 1-TB-SAS mit 7,2.000 U / min. Angesichts des geringen Preises Unterschied, das 900 GB-Laufwerk ist der bessere Kauf. Im Beispiel von 1,8 TB 10 kB SAS gegenüber 2,0 TB 7,2 kB SAS liegen die Preise ebenfalls sehr nahe. Die Garantien betragen 3 Jahre bzw. 1 Jahr.
Verwenden Sie für Server und internen 2,5-Zoll-Speicher SSD oder 10 KB. Wenn Sie Kapazität benötigen und interne oder externe 3,5-Zoll-Laufwerkschächte zur Verfügung haben, verwenden Sie 7,2 KB U / min.
In den von Ihnen beschriebenen Anwendungsfällen sind die Server nicht überkonfiguriert. Wenn es sich um 2,5-Zoll-Laufwerkschächte handelt, sollten Sie eigentlich nur 10-KByte-SAS- oder SSD-Laufwerke verwenden. Die Midline-Laufwerke verlieren an Leistung, Kapazität, haben eine deutlich kürzere Garantie und sparen nicht viel an Kosten.
quelle
Es gibt mindestens ein paar Dinge, die Probleme mit einigen Laufwerkstypen verursachen können:
Laufwerke, die nicht für die Vibrationsbelastung eines Gehäuses mit vielen Laufwerken ausgelegt sind (unwahrscheinlich, wenn ein Laufwerk als RAID / NAS-fähig angegeben ist)
Firmware, die TLER nicht zulässt oder für deren Aktivierung eine zeitaufwendige manuelle Neukonfiguration des Laufwerks erforderlich ist (dito)
Laufwerke, die noch nie mit dem verwendeten RAID-Controller getestet wurden und möglicherweise nicht erkannte Fehler aufweisen, die in einem solchen Setup auftreten
Schreibcaches für interne Laufwerke, die sich in einer Weise verhalten (physisches Schreiben funktioniert nicht oder sehr verzögert), die im Falle eines Hard-Shutdowns zu großer Verwirrung führt (RAID-Controller sollte so konfiguriert werden, dass diese deaktiviert werden. Mögliches Problem, wenn die Firmware jemals ignoriert wird das. Siehe ungetestete Laufwerke :)
Das Laufwerk führt gelegentlich interne Wartungsroutinen durch, die dazu führen können, dass sich das Laufwerk langsam verhält oder mit einer ausreichenden Verzögerung reagiert, damit der RAID-Controller denkt, dass ein Fehler aufgetreten ist (im Zusammenhang mit TLER).
SATA im Allgemeinen, da es in der Regel implementiert ist, hat weniger Garantien im Vergleich zu SAS gegen einen Antrieb mit völlig erschossen oder gehängt Elektronik hängt alles an der Steuerung (nicht ein theoretisches Risiko, bestimmte Disk + Controller Marke Kombinationen lieben diesen Fehlermodus).
quelle
RIESIGE Ausgabe:
(Kann ein bisschen vom Thema abweichen - aber ich bin wichtig! )
Wenn Sie mit SSDs zu tun haben (wie es häufig der Fall ist oder der Fall oder die Versuchung sein kann), haben viele SSDs ein unangenehmes Problem, bei dem sie sich nicht immer von spontanen Stromausfällen erholen können!
Dies ist ein kleines Problem mit Festplatten. Festplatten haben normalerweise genug Kapazität, um ihre Logik mit Strom zu versorgen, und genug Drehimpuls, um die Platten durch das vollständige Schreiben eines 512-Byte-Blocks zu befördern - für den Fall, dass die Stromversorgung während des Schreibvorgangs unterbrochen wird. In seltenen Fällen funktioniert dies nicht , was zu einem so genannten "Torn Write" führt, bei dem ein einzelner Block teilweise geschrieben werden kann. Das partielle Schreiben (albiet rare) führt zu einem Prüfsummenfehler im Block, dh, der einzelne Block ist fehlerhaft. Dies kann normalerweise von der Festplattenschaltung selbst als fehlerhaft erkannt und vom vorgeschalteten RAID-Controller korrigiert werden.
SSDs sind ein anderes Tier. Normalerweise implementieren sie etwas, das als "Wear Leveling" bezeichnet wird. Dabei schreiben sie nicht einfach "Block X" an einen physischen Speicherort für "Block X", wie dies bei einer Festplatte der Fall ist. Stattdessen versuchen sie, an unterschiedlichen Stellen auf dem Flash-Medium zu schreiben - und sie versuchen, Schreibvorgänge zu aggregieren oder zu kombinieren (mit etwas Pufferung). Beim Schreiben an die verschiedenen Stellen muss eine "Karte" des Schreibortes erstellt werden, die ebenfalls gepuffert und ausgeschrieben wird, um den Verschleiß zu verringern. Ein Teil des Verschleißausgleichs kann sogar das Verschieben von Daten beinhalten, die sich bereits auf dem Gerät befinden und erst kürzlich geschrieben wurden.
Dieses Problem besteht darin, dass die SSD bei einem Stromausfall - sie hat viele Daten im Speicher (nicht geleert) - Daten enthält, die an andere / geänderte Speicherorte geschrieben wurden - und diese Karten müssen sich im eigenen Speicher befinden herausgespült, um die Struktur aller Daten auf dem Gerät zu verstehen.
VIELE SSDs verfügen weder über die Logik noch über die Schaltkreise, um ihre Controller bei einem spontanen Stromausfall so lange am Leben zu halten, dass alle diese Daten sicher gelöscht werden, bevor sie absterben. Dies bedeutet nicht nur, dass ein Block, den Sie geschrieben haben, sich jetzt in jedem Block befindet - sondern auch, dass andere Blöcke - selbst alle Blöcke auf dem Gerät in Schwierigkeiten geraten können. Viele Geräte haben auch Probleme, wenn sie nicht nur alle Daten auf dem Gerät verlieren , sondern das Gerät selbst blockiert und unbrauchbar wird.
Das ist alles wahre Theorie - aber (in der Speicherbranche tätig) - ich / wir haben dies viel zu oft auf zu vielen Geräten gesehen - auch in einigen unserer eigenen, persönlichen Laptops!
Viele Anbieter haben diskutiert „Enterprise Grade SSDs“ zu machen , wo die Geräte speziell hinzufügen ( „Super-Caps“) und eine andere Schaltung einem sauberen „flush“ zu ermöglichen - aber es ist sehr , sehr schwer , eine Vorrichtung zu finden , die speziell besagt , als ein Teil davon ist Datenblatt, dass es einen ausreichenden, expliziten und geprüften Schutz vor solchen Ereignissen bietet und vor solchen Ereignissen schützt.
Wenn Sie ein "High-End-Speicher-Array" von einem Top-Tier-Anbieter kaufen, der Flash-Technologie verwendet, wurden entweder dessen Laufwerke oder das gesamte System unter Berücksichtigung all dieser Faktoren entwickelt. Stellen Sie sicher, dass es hat!
Das Problem in Bezug auf Ihre Frage ist: Wenn Sie ein RAID-Array haben - und mehrere der Festplatten sind die "schlechten" SSDs ohne diesen Schutz -, können Sie bei einem "spontanen Stromausfall" ALLE Daten auf MEHREREN Festplatten verlieren RAID-Rekonstruktion unmöglich machen.
Es ist auch generell wichtig zu beachten, dass "spontaner Stromausfall" Situationen wie BSOD und Kernel-Sperren / Abstürze / Panik einschließen kann - bei denen Sie keine Wahl haben, sich durch Ziehen des Netzsteckers vom System zu erholen.
quelle