Können Enterprise-Laufwerke in bestimmten Situationen sicher durch Near- / Midline-Laufwerke ersetzt werden?

22

Wenn ich Server spezifiziere, wie (ich würde annehmen) viele Ingenieure, die keine Experten für Speicher sind, gehe ich im Allgemeinen auf Nummer sicher (und bin vielleicht ein Sklave des Marketings), indem ich auf mindestens 10k SAS-Laufwerke standardisiere (und daher Enterprise-Upgrade mit einem 24x7-Arbeitszyklus usw. für "System" -Daten (normalerweise Betriebssystem und manchmal Apps), und reservieren Sie die Verwendung von 7,2-KByte-Mid- / Nearline-Laufwerken für die Speicherung von Nicht-Systemdaten, bei denen die Leistung keine Rolle spielt Faktor. Dies setzt voraus, dass 2,5-Zoll-Festplatten (SFF-Festplatten) vorhanden sind, da 3,5-Zoll-Festplatten (LFF-Festplatten) nur für Anforderungen mit hoher Kapazität und niedrigem IOP wirklich relevant sind.

In Situationen, in denen es keine große Menge an Nicht-Systemdaten gibt, platziere ich sie im Allgemeinen auf denselben Festplatten / Arrays wie die Systemdaten, was bedeutet, dass der Server nur 10k SAS-Laufwerke hat (im Allgemeinen ein "One Big RAID10" -Typ von Setup in diesen Tagen). Nur wenn die Größe der Nicht-Systemdaten von Bedeutung ist, sollte diese normalerweise auf einem separaten Array von 7,2-KByte-Mid- / Nearline-Festplatten gespeichert werden, um die Kosten pro GByte niedrig zu halten.

Dies hat mich zu der Frage veranlasst: Könnten in einigen Situationen diese 10-k-Festplatten im RAID10-Array durch 7,2-k-Festplatten ersetzt werden, ohne dass dies erhebliche negative Folgen hätte. Mit anderen Worten, bin ich manchmal überfordert (und halte die Hardwarehersteller bei Laune), indem ich mich an ein Minimum von 10.000 "Enterprise" -Datenträgern halte, oder gibt es einen guten Grund, mich immer an dieses Minimum zu halten?

Nehmen Sie zum Beispiel einen Server, der als Hypervisor mit einigen VMs für ein typisches kleines Unternehmen (z. B. 50 Benutzer) fungiert. Das Unternehmen verfügt über durchschnittliche E / A-Muster ohne besondere Anforderungen. Typisches Büro von Montag bis Freitag zwischen 9:00 und 17:00 Uhr, mit Backups, die einige Stunden pro Nacht ausgeführt werden. Die VMs könnten möglicherweise ein DC- und ein Datei- / Druck- / App-Server sein. Der Server verfügt über ein RAID10-Array mit 6 Festplatten zum Speichern aller Daten (System- und Nicht-Systemdaten). Für meinen Laien sieht es so aus, als würden Mid- / Nearline-Festplatten gut funktionieren. Ein Beispiel für HP Festplatten:

  • Arbeitslast: Midline-Festplatten sind für eine Arbeitslast von <40% ausgelegt. Da das Büro nur 9 Stunden am Tag geöffnet ist und die durchschnittliche E / A-Auslastung in diesem Zeitraum wahrscheinlich nicht annähernd maximal ist, ist es unwahrscheinlich, dass die Arbeitslast 40% übersteigt. Selbst nach ein paar Stunden intensiver I / O-Vorgänge in der Nacht für Backups würde es meiner Schätzung nach immer noch unter 40% liegen.
  • Geschwindigkeit: Obwohl die Festplatten nur 7,2 KB groß sind, wird die Leistung durch die Verteilung auf sechs Festplatten verbessert

Meine Frage: Ist es sinnvoll, mindestens 10-KByte-SAS-Laufwerke zu verwenden, oder sind 7,2-KByte-Midline- / Nearline-Laufwerke in vielen Situationen mehr als ausreichend? Wenn ja, wie kann ich feststellen, wo die Linie ist, und vermeiden, ein Sklave der Unwissenheit zu sein, indem ich auf Nummer sicher gehe?

Ich habe hauptsächlich Erfahrung mit HP Servern, daher kann das oben Gesagte ein bisschen HP-Charakter haben, aber ich würde annehmen, dass die Prinzipien ziemlich herstellerunabhängig sind.

dbr
quelle
3
SFF 7.2k-Midline-Festplatten sind aufgrund von Kapazitäts- und Betriebsbeschränkungen nicht sinnvoll. Wenn Sie über HP-Geräte (meine Spezialität) sprechen , sind 900-GB- und 1,2-TB-10-KB-SAS-Laufwerke die beste Option, wenn Sie keine SSDs verwenden. Wenn Sie sich in den USA befinden, sollten 900 GB SAS ~ 300-400 US-Dollar betragen, wenn Sie einen guten Anbieter haben.
Ewwhite
1
Geringfügige grammatikalische Beanstandung: Wenn Sie "Y durch X ersetzen" sagen, bedeutet dies, dass Sie Y am Anfang hatten und es durch X ersetzen.
pjc50
2
Bist du sicher, dass du 2015 lebst? Denn seit einigen Jahren ist mein OS-Laufwerk eine kleine SSD (spart Strom etc.) und ich würde auch keine HD für eine hohe Leistung anfassen.
TomTom
1
@TomTom Nein, ich bin im Jahr 2016 :) Im Ernst, ich habe nicht wirklich darüber nachgedacht. Wie ich in meinem Beitrag sagte, werde ich heutzutage im Allgemeinen einen "One Big RAID 10" -Ansatz wählen, damit das Betriebssystem dort weiterarbeitet. Die Trennung des Betriebssystems auf eine separate SSD erscheint verschwenderisch, wenn dies nicht wirklich notwendig ist. Es würde mich interessieren, Ihre Gedanken zu hören. Würden Sie eine einzelne SSD oder ein gespiegeltes Paar verwenden? Vielleicht wäre dies eine gute SF-Frage für sich ...
dbr
1
Gespiegeltes Paar für das Betriebssystem. HP verkauft sogar OS / Boot-spezifische SSDs.
Ewwhite

Antworten:

25

Hier gibt es eine interessante Schnittstelle zwischen Serverdesign, Festplattentechnologie und Wirtschaftlichkeit:

Siehe auch: Warum sind LFF-Datenträger (Large Form Factor) immer noch recht verbreitet?

  • Der Schritt in Richtung dichter Rack-Server und Server mit kleinem Formfaktor. ZB sehen Sie nicht mehr viele Turmangebote der großen Hersteller, wohingegen die dichteren Produktlinien häufiger überarbeitet werden und mehr Optionen / Verfügbarkeit haben.
  • Die Stagnation bei der Entwicklung von 3,5-Zoll-Enterprise-Festplatten (15 KB) - 600 GB (15 KB) ist ungefähr so ​​groß wie möglich.
  • Langsamer Fortschritt bei der Kapazität von 2,5-Zoll-Near-Line-Festplatten (7,2 KB) - 2 TB sind die größten, die Sie dort finden.
  • Höhere Verfügbarkeit und niedrigere Preise für SSDs mit hoher Kapazität.
  • Speicherkonsolidierung auf gemeinsam genutztem Speicher. Einzelne Server-Workloads, die eine hohe Kapazität erfordern, können manchmal über SAN bedient werden.
  • Die Reifung von All-Flash- und Hybrid-Speicher-Arrays sowie der Zustrom von Speicher-Startups.

Aus den oben genannten Gründen konzentrieren sich Hersteller in der Regel auf 1U / 2U-Server mit 8-24 2,5-Zoll-Laufwerkschächten.

3,5-Zoll-Festplatten eignen sich für Anwendungsfälle mit niedrigem IOP und hoher Kapazität (2 TB +). Sie eignen sich am besten für externe Speichergehäuse oder SAN-Speicher, die durch eine Art Caching geschützt sind. In Unternehmen mit 15.000 U / min sind sie nur bis zu 600 GB verfügbar.

2,5 "-Disketten mit 10.000 U / min sind für höhere IOPS-Anforderungen vorgesehen und stehen im Allgemeinen mit einer Kapazität von bis zu 1,8 TB zur Verfügung.

2,5-Zoll-Laufwerke mit 7,2.000 U / min sind ein schlechter Anruf, da sie weder Kapazität, Leistung, Langlebigkeit noch Preisvorteile bieten. ZB liegen die Kosten eines 900-GB-SAS-Laufwerks mit 10.000 U / min sehr nahe an denen eines 1-TB-SAS mit 7,2.000 U / min. Angesichts des geringen Preises Unterschied, das 900 GB-Laufwerk ist der bessere Kauf. Im Beispiel von 1,8 TB 10 kB SAS gegenüber 2,0 TB 7,2 kB SAS liegen die Preise ebenfalls sehr nahe. Die Garantien betragen 3 Jahre bzw. 1 Jahr.

Verwenden Sie für Server und internen 2,5-Zoll-Speicher SSD oder 10 KB. Wenn Sie Kapazität benötigen und interne oder externe 3,5-Zoll-Laufwerkschächte zur Verfügung haben, verwenden Sie 7,2 KB U / min.

In den von Ihnen beschriebenen Anwendungsfällen sind die Server nicht überkonfiguriert. Wenn es sich um 2,5-Zoll-Laufwerkschächte handelt, sollten Sie eigentlich nur 10-KByte-SAS- oder SSD-Laufwerke verwenden. Die Midline-Laufwerke verlieren an Leistung, Kapazität, haben eine deutlich kürzere Garantie und sparen nicht viel an Kosten.

ewwhite
quelle
Vielen Dank, dass Sie sich die Zeit genommen haben, dies zusammenzustellen. Ich werde morgen Gelegenheit haben, darüber nachzudenken. Nur einen kurzen Blick auf die Preise zu werfen, sieht es so aus, als ob zwischen 1 TB 7.2k und 900 GB 10k ein Sprung von 30% liegt, was nicht massiv ist. Könnte möglicherweise ein Faktor sein, wenn Sie ein knappes Budget haben, bei dem Sie an mehreren Stellen vernünftige Einsparungen erzielen möchten und die Festplattenauswahl nur einer davon ist. Es würde mich interessieren, was Sie zu dieser Frage auch aus rein technischer Sicht denken.
dbr
Aus technischer Sicht gibt es keinen Vorteil für eine 2,5-Zoll-Festplatte mit 7200 U / min. Wenn die Kosten zu hoch erscheinen, kaufen Sie weiter ein. Auf diesem Markt gibt es kaum Unterschiede. Für Boot-Festplatten ist SSD eine gute Alternative Ich kann mir keinen Grund vorstellen, warum ich heute eine HP 7200 2.5 "-Diskette in einem Server verwenden würde. Lesen Sie auch Ihre HP Quickspecs sorgfältig durch. Midline-Laufwerke haben kürzere Garantien.
Ewwhite
1
Im Allgemeinen ist diese Antwort großartig. Aber wie bei allem anderen "kommt es darauf an". Im Beispiel einer Festplatte mit 900 GB und 10 KB gegenüber einer Festplatte mit 1 TB und 7200 GB ist die Festplatte mit 1 TB kühler und daher möglicherweise länger und kostengünstiger. Wenn Sie die zusätzliche Leistung nicht benötigen, ist dies eine Verschwendung von Geld, sowohl der ursprünglichen Kapitalkosten als auch der Betriebskosten. Für einen Server spielt es keine Rolle. Für 10 beginnt es zu addieren.
Dan Pritts
2
Wirklich, die langsamer laufende Festplatte hält länger? Irgendein Artikel, den ich vermisse?
Vasin1987
2
Aus Sicht eines Anbieters / Herstellers ja. Sie steuern Sie auf 10k und SSD für 2,5 ". Wenn Sie White-Boxing betrieben, sollten Sie 7200 U / min. Verwenden. Tatsächlich verwendet mein ZFS-Speicheranbieter PogoStorage für seine ZFS-Arrays 7200 U / min müssen schnellere Festplatten spezifizieren.
Ewwhite
5

Es gibt mindestens ein paar Dinge, die Probleme mit einigen Laufwerkstypen verursachen können:

  • Laufwerke, die nicht für die Vibrationsbelastung eines Gehäuses mit vielen Laufwerken ausgelegt sind (unwahrscheinlich, wenn ein Laufwerk als RAID / NAS-fähig angegeben ist)

  • Firmware, die TLER nicht zulässt oder für deren Aktivierung eine zeitaufwendige manuelle Neukonfiguration des Laufwerks erforderlich ist (dito)

  • Laufwerke, die noch nie mit dem verwendeten RAID-Controller getestet wurden und möglicherweise nicht erkannte Fehler aufweisen, die in einem solchen Setup auftreten

  • Schreibcaches für interne Laufwerke, die sich in einer Weise verhalten (physisches Schreiben funktioniert nicht oder sehr verzögert), die im Falle eines Hard-Shutdowns zu großer Verwirrung führt (RAID-Controller sollte so konfiguriert werden, dass diese deaktiviert werden. Mögliches Problem, wenn die Firmware jemals ignoriert wird das. Siehe ungetestete Laufwerke :)

  • Das Laufwerk führt gelegentlich interne Wartungsroutinen durch, die dazu führen können, dass sich das Laufwerk langsam verhält oder mit einer ausreichenden Verzögerung reagiert, damit der RAID-Controller denkt, dass ein Fehler aufgetreten ist (im Zusammenhang mit TLER).

  • SATA im Allgemeinen, da es in der Regel implementiert ist, hat weniger Garantien im Vergleich zu SAS gegen einen Antrieb mit völlig erschossen oder gehängt Elektronik hängt alles an der Steuerung (nicht ein theoretisches Risiko, bestimmte Disk + Controller Marke Kombinationen lieben diesen Fehlermodus).

Rackandboneman
quelle
1
Dies scheint ein Grund dafür zu sein, Laufwerke zu verwenden, die für die Serverhardware und den Anwendungsstapel geeignet sind, jedoch nicht speziell für etwa 10.000 vs. 7.000 U / min.
Poolie
1
Die Frage kann leicht (falsch?) Verstanden werden für "Kann in der Anwendung eine 7,2-k-Festplatte eines Unternehmens oder eine für die Verwendung durch Unternehmen mit einem Laufwerk bestimmte Festplatte verwendet werden?". Und "sicher" würde in der Regel das Risiko von Datenverlust oder ausfallbedingten Ausfallzeiten beinhalten.
Rackandboneman
4

RIESIGE Ausgabe:

(Kann ein bisschen vom Thema abweichen - aber ich bin wichtig! )

Wenn Sie mit SSDs zu tun haben (wie es häufig der Fall ist oder der Fall oder die Versuchung sein kann), haben viele SSDs ein unangenehmes Problem, bei dem sie sich nicht immer von spontanen Stromausfällen erholen können!

Dies ist ein kleines Problem mit Festplatten. Festplatten haben normalerweise genug Kapazität, um ihre Logik mit Strom zu versorgen, und genug Drehimpuls, um die Platten durch das vollständige Schreiben eines 512-Byte-Blocks zu befördern - für den Fall, dass die Stromversorgung während des Schreibvorgangs unterbrochen wird. In seltenen Fällen funktioniert dies nicht , was zu einem so genannten "Torn Write" führt, bei dem ein einzelner Block teilweise geschrieben werden kann. Das partielle Schreiben (albiet rare) führt zu einem Prüfsummenfehler im Block, dh, der einzelne Block ist fehlerhaft. Dies kann normalerweise von der Festplattenschaltung selbst als fehlerhaft erkannt und vom vorgeschalteten RAID-Controller korrigiert werden.

SSDs sind ein anderes Tier. Normalerweise implementieren sie etwas, das als "Wear Leveling" bezeichnet wird. Dabei schreiben sie nicht einfach "Block X" an einen physischen Speicherort für "Block X", wie dies bei einer Festplatte der Fall ist. Stattdessen versuchen sie, an unterschiedlichen Stellen auf dem Flash-Medium zu schreiben - und sie versuchen, Schreibvorgänge zu aggregieren oder zu kombinieren (mit etwas Pufferung). Beim Schreiben an die verschiedenen Stellen muss eine "Karte" des Schreibortes erstellt werden, die ebenfalls gepuffert und ausgeschrieben wird, um den Verschleiß zu verringern. Ein Teil des Verschleißausgleichs kann sogar das Verschieben von Daten beinhalten, die sich bereits auf dem Gerät befinden und erst kürzlich geschrieben wurden.

Dieses Problem besteht darin, dass die SSD bei einem Stromausfall - sie hat viele Daten im Speicher (nicht geleert) - Daten enthält, die an andere / geänderte Speicherorte geschrieben wurden - und diese Karten müssen sich im eigenen Speicher befinden herausgespült, um die Struktur aller Daten auf dem Gerät zu verstehen.

VIELE SSDs verfügen weder über die Logik noch über die Schaltkreise, um ihre Controller bei einem spontanen Stromausfall so lange am Leben zu halten, dass alle diese Daten sicher gelöscht werden, bevor sie absterben. Dies bedeutet nicht nur, dass ein Block, den Sie geschrieben haben, sich jetzt in jedem Block befindet - sondern auch, dass andere Blöcke - selbst alle Blöcke auf dem Gerät in Schwierigkeiten geraten können. Viele Geräte haben auch Probleme, wenn sie nicht nur alle Daten auf dem Gerät verlieren , sondern das Gerät selbst blockiert und unbrauchbar wird.

Das ist alles wahre Theorie - aber (in der Speicherbranche tätig) - ich / wir haben dies viel zu oft auf zu vielen Geräten gesehen - auch in einigen unserer eigenen, persönlichen Laptops!

Viele Anbieter haben diskutiert „Enterprise Grade SSDs“ zu machen , wo die Geräte speziell hinzufügen ( „Super-Caps“) und eine andere Schaltung einem sauberen „flush“ zu ermöglichen - aber es ist sehr , sehr schwer , eine Vorrichtung zu finden , die speziell besagt , als ein Teil davon ist Datenblatt, dass es einen ausreichenden, expliziten und geprüften Schutz vor solchen Ereignissen bietet und vor solchen Ereignissen schützt.

Wenn Sie ein "High-End-Speicher-Array" von einem Top-Tier-Anbieter kaufen, der Flash-Technologie verwendet, wurden entweder dessen Laufwerke oder das gesamte System unter Berücksichtigung all dieser Faktoren entwickelt. Stellen Sie sicher, dass es hat!

Das Problem in Bezug auf Ihre Frage ist: Wenn Sie ein RAID-Array haben - und mehrere der Festplatten sind die "schlechten" SSDs ohne diesen Schutz -, können Sie bei einem "spontanen Stromausfall" ALLE Daten auf MEHREREN Festplatten verlieren RAID-Rekonstruktion unmöglich machen.

"Aber ich benutze eine UPS"

Es ist auch generell wichtig zu beachten, dass "spontaner Stromausfall" Situationen wie BSOD und Kernel-Sperren / Abstürze / Panik einschließen kann - bei denen Sie keine Wahl haben, sich durch Ziehen des Netzsteckers vom System zu erholen.

Brad
quelle
2
Es kommt selten vor, dass jemand den Stecker an einem hängen gebliebenen System zieht (es sei denn, die Festplatte wird verworfen), um zu verhindern, dass Festplatten jeglicher Art ihre Caches leeren. Und in diesem Fall können herkömmliche Festplatten mit aktivierten Caches dasselbe Durcheinander verursachen, wenn auch mit geringerer Wahrscheinlichkeit von Bricking, aber immer noch mit erheblicher Wahrscheinlichkeit von Datenbeschädigung Wird für eine Aktivität geschrieben, die nicht tatsächlich stattgefunden hat (oder umgekehrt, beide wahrscheinlich mit nicht ordnungsgemäßem Cache-Leeren), SEHR schlecht.
Rackandboneman
2
Eine ordnungsgemäß gestaltete SSD kann keine Daten beschädigen oder verlieren, falls die Daten nicht vollständig gelöscht wurden. Da sich der physische Speicherort jedes logischen Sektors bei jedem Schreibvorgang ändern kann, sollte die vorherige Version der Daten in jedem logischen Sektor weiterhin vorhanden sein, falls die Aktualisierung noch nicht gelöscht wurde. Sie können weiterhin Daten verlieren, wenn die Firmware Designfehler oder Implementierungsfehler aufweist.
Kasperd
1
@kasperd Consumer-SSDs werden auf Geschwindigkeitsbasis verkauft, sie machen dabei Kompromisse. Während es möglich sein sollte, die Integrität so aufrechtzuerhalten, wie Sie es vorschlagen, ist die Tatsache, dass die meisten Hersteller (zumindest auf Verbraucherebene) dies einfach nicht tun. Auch wenn sie EoL erreichen, scheitern die meisten nicht anmutig.
James Ryan
@JamesRyan Geschichten über Hersteller, die mit dem Löschen von Daten in einen dauerhaften Speicher cheaten, um in einigen Leistungsmetriken bessere Ergebnisse zu erzielen, sind nicht neu. Wir haben gehört, dass dies auch in den Tagen der Festplatten passiert. Es liegt nicht daran, dass dies der Wunsch der Verbraucher ist. Dies liegt daran, dass die Verbraucher nur einen Teil der Messdaten sehen und nicht wissen, wie der Hersteller in anderen Bereichen betrogen hat, um dies zu erreichen. Manchmal kommen die Hersteller mit Betrug davon, manchmal nicht. (Ich bin sicher, jemand könnte sich eine Auto-Analogie einfallen lassen, die von den jüngsten Nachrichten inspiriert ist.)
Kasperd,
2
SSDs sind ein anderes Tier. Sie haben Kartentabellen, die angeben, wo sich die Daten befinden. Sie verschieben und verlagern Daten und passen diese Karten an. Sie MÜSSEN ihre Schreibvorgänge zusammenführen (dh verschieben, bündeln und später schreiben), um eine Schreibverstärkung zu vermeiden. Die Maps selbst können nicht aggressiv beschrieben werden und müssen denselben Regeln folgen. Wir können von "richtigen Designs" und Fehlern sprechen - aber SSDs sind keine "einfachen" wie Journled-Dateisysteme (die nicht einfach sind). Ich spreche aus einer Menge Erfahrung, Tests, Spezifikationen und ich kann oder kann nicht mit einem Hersteller gesprochen haben - oder zwei - oder drei in meinem Job.
Brad