Ist es sicher, Consumer-MLC-SSDs in einem Server zu verwenden?

44

Wir (und damit meine ich Jeff) prüfen die Möglichkeit der Verwendung von Consumer-MLC-SSD-Festplatten in unserem Backup-Rechenzentrum.

Wir wollen versuchen, die Kosten niedrig zu halten und den nutzbaren Speicherplatz hoch zu halten - daher sind die Intel X25-E mit jeweils etwa 700 US-Dollar und 64 GB Kapazität fast ausverkauft.

Was wir überlegen, ist, einige der unteren End-SSDs zu kaufen, die mehr Kapazität zu einem niedrigeren Preis bieten. Mein Chef glaubt nicht, dass es sich lohnt, etwa 5.000 Euro für Festplatten auf Servern auszugeben, auf denen das Backup-Rechenzentrum leer ist.

Diese Laufwerke würden in einem RAID-Array mit 6 Laufwerken auf einem Lenovo RD120 verwendet. Der RAID-Controller ist ein Adaptec 8k (umbenannter Lenovo).

Wie gefährlich ist dieser Ansatz und wie können diese Gefahren gemindert werden?

Zypher
quelle
4
Was ist der Grund für die Verwendung von SSD anstelle von Spinnern? Die Volksweisheit in Bezug auf die SSD-Leistung ist "zahlen oder sich nicht darum kümmern", aber es gibt sicherlich andere Aspekte, die von Vorteil sein könnten.
Peterchen
Ich bin gespannt auf das Problem, das Sie hier lösen möchten. Wenn es nur eine der Kosten ist, warum werden SSDs anstelle von herkömmlichen Laufwerken in Betracht gezogen?
John Gardeniers
@peterchen, du kannst entweder ein paar SSDs oder fünfzig 15K-Spindeln verwenden.
Mircea Chirea
@iconiK - meinst du "für einen Server musst du sowieso viel Geld ausgeben"? Wenn ja - ja, deshalb habe ich mich auch gefragt.
Peterchen

Antworten:

61

Ein paar Gedanken;

  • SSDs haben einen "Overcommit" -Speicher. Dies ist der Speicher, der anstelle der durch Schreiben beschädigten Zellen verwendet wird. Low-End-SSDs verfügen möglicherweise nur über 7% des überlasteten Speicherplatzes. mittlerer Bereich um 28%; und Enterprise-Festplatten bis zu 400%. Betrachten Sie diesen Faktor.
  • Wie viel schreiben Sie ihnen pro Tag? Selbst SSDs der mittleren Preisklasse, die auf 1200-Chips von Sandforce basieren, benötigen selten mehr als 35 GB Schreibzugriff pro Tag, bevor sie den überlasteten Speicher ernsthaft einschränken.
  • Normalerweise ist der erste Tag einer neuen SSD voller Schreibvorgänge, egal ob es sich um Betriebssysteme oder Daten handelt. Wenn Sie am ersten Tag deutlich mehr als> 35 GB an Schreibvorgängen haben, können Sie diese stapelweise kopieren, um der SSD eine gewisse Aufräumzeit zwischen den Stapeln zu ermöglichen.
  • Ohne TRIM-Unterstützung kann die zufällige Schreibleistung innerhalb von Wochen um bis zu 75% sinken, wenn in diesem Zeitraum viel geschrieben wird. Verwenden Sie nach Möglichkeit ein Betriebssystem, das TRIM unterstützt
  • Die internen Speicherbereinigungsprozesse, die moderne SSDs ausführen, werden sehr speziell in ruhigen Zeiten ausgeführt und werden bei Aktivität angehalten. Dies ist kein Problem für einen Desktop-PC, bei dem die Festplatte für 60% des üblichen 8-Stunden-Arbeitszyklus leise sein kann, aber Sie führen einen 24-Stunden-Dienst aus. Wann kann dieser Prozess ausgeführt werden?
  • Es ist in der Regel tief in Spezifikationen vergraben, aber wie bei billigen "normalen" Festplatten wird auch bei kostengünstigen SSDs nur ein Arbeitszyklus von etwa 30% erwartet. Sie werden sie fast 100% der Zeit verwenden - dies wirkt sich auf Ihre MTBF-Rate aus.
  • SSDs haben zwar nicht die gleichen mechanischen Probleme wie normale Festplatten, es treten jedoch Einzel- und Mehrbitfehler auf. Überlegen Sie sich daher dringend, sie zu RAIDen, auch wenn das nicht der Fall ist. Offensichtlich wirkt sich das auf all die schöne zufällige Schreibgeschwindigkeit aus, die Sie gerade gekauft haben, aber berücksichtigen Sie es trotzdem.
  • Es ist immer noch SATA, nicht SAS, daher ist Ihr Warteschlangenmanagement in einer Serverumgebung nicht so gut, aber der zusätzliche Leistungsschub wird ziemlich dramatisch sein.

Viel Glück - brate sie einfach nicht mit Schriften an :)

Chopper3
quelle
2
Meinen Sie 400% für den zusätzlichen Platz oder 40%? Ich wollte Ihre Antwort bearbeiten, konnte aber kein Zitat finden, also könnte es 400% sein. (Es ist übrigens ein sehr guter Punkt)
ChrisInEdmonton
9
Es ist auch nicht immer klar, ob TRIM in einer RAID-Konfiguration unterstützt wird. Denken Sie daran, dass die SSDs mit RAID vom Betriebssystem abstrahiert werden. Wenden Sie sich unbedingt an den RAID-Anbieter.
Matt Sherman
5
Ich meinte 400 Chris, speziell die, die in FC-SANs verwendet wurden, aber sehr teuer, sehr teuer.
Chopper3
5
Ein Trick, um mehr Speicherplatz aus einem Laufwerk herauszuholen, ist das sichere Löschen und dann das Partitionieren mit einem großen, nicht verwendeten Bruchteil. Dieser freie Speicherplatz erhöht die Leistung und Lebensdauer der SSD.
Zan Lynx
1
Ich möchte nur mit @ZanLynx +1 geben. Normalerweise partitioniere ich nur ca. 80% des Laufwerks, wenn ich SSD + Raid verwende.
Tracker1
12

Ich habe diesen Link gefunden, der eine interessante und gründliche Analyse von MLC- und SLC-SSDs in Servern enthält

Aus meiner Sicht ist die Verwendung eines MLC-Flash-SSD-Arrays für eine Unternehmensanwendung, ohne zumindest die (behaupteten) verschleißmindernden Effekte einer Technologie wie Easycos MFT zu nutzen, wie das Herausspringen aus einem Flugzeug ohne Fallschirm.

Beachten Sie, dass einige MLC-SSD-Anbieter behaupten, ihre Laufwerke seien "unternehmerisch" genug , um die Schreibvorgänge zu überstehen:

SandForce soll das erste Unternehmen sein, das einen Controller mit mehrstufigen Zellen-Flash-Chips für in Servern verwendete Solid-State-Laufwerke unterstützt. Durch die Verwendung von MLC-Chips ebnet der SF-1500 den Weg zu kostengünstigeren und dichteren Laufwerken, die von Servern gewünscht werden. Bisher verwendeten Flash-Laufwerke für Server einstufige Zellen-Flash-Chips. Dies liegt daran, dass die Lebensdauer und Zuverlässigkeit von MLC-Chips im Allgemeinen nicht den Anforderungen von Servern entsprach.

Diese Behauptungen werden bei AnandTech weiter analysiert .

Darüber hinaus hat Intel jetzt die Aufzeichnung aufgenommen, dass SLC in 90% der Fälle auf Servern überlastet sein könnte :

"Wir waren der Meinung, dass SLC (Single-Level-Cell) erforderlich ist, aber was wir durch Studien mit Microsoft und sogar Seagate herausgefunden haben, sind diese rechenintensiven Anwendungen, die wirklich nicht so viel schreiben, wie sie dachten", sagte Winslow. "Neunzig Prozent der Anwendungen in Rechenzentren können dieses MLC-Laufwerk (Multilevel Cell) verwenden."

Im Laufe des letzten Jahres haben die Anbieter erkannt, dass sie durch die Verwendung spezieller Software in den Laufwerkssteuerungen die Zuverlässigkeit und Ausfallsicherheit ihrer MLC-SSDs der Consumer-Klasse so weit steigern können, dass Unternehmen sie gern einsetzen Hochleistungs-Server und Speicher-Arrays für Rechenzentren. SSD-Anbieter verwenden seit einiger Zeit den Begriff eMLC (Enterprise MLC) NAND Flash, um diese SSDs zu beschreiben.

"Unter dem Aspekt des Volumens sehen wir, dass es wirklich schreibintensive Hochleistungs-Computing-Umgebungen gibt, in denen möglicherweise noch SLC erforderlich ist, die jedoch selbst bei den Anforderungen an Unternehmens-Rechenzentren in den oberen 10% liegen", sagte Winslow.

Intel beliefert diese oberen 10% des Marktes für Enterprise-Rechenzentren durch sein Joint Venture mit Hitachi Global Storage Technologies. Hitachi stellt die SSD400S-Serie von Serial Attached SCSI-SSDs mit 6 Gbit / s her. Durchsatz - doppelt so hoch wie bei MLC-basierten SATA-SSDs.

Selbst für ihre serverorientierten SSD-Laufwerke hat Intel mit der neuen Intel SSD 710-Serie von SLC zu MLC gewechselt, wobei der "Overprovisioning" -Raum sehr hoch ist . Diese Laufwerke reservieren intern bis zu 20% des gesamten Speichers für Redundanz:

Leistung hat für die SSD 710 nicht die höchste Priorität. Stattdessen ist Intel bestrebt, durch die Verwendung von billigerem eMLC HET NAND eine Beständigkeit auf SLC-Niveau zu einem angemessenen Preis zu erzielen. Die SSD 710 unterstützt auch vom Benutzer konfigurierbares Overprovisioning (20%), wodurch die Lebensdauer des Laufwerks erheblich erhöht wird. Die Garantie für die SSD 710 beträgt 3 Jahre oder bis ein Verschleißindikator ein bestimmtes Maß erreicht, je nachdem, was zuerst eintritt. Dies ist das erste Mal, dass die SSD-Garantie auf diese Weise eingeschränkt wird.

Jeff Atwood
quelle
7

Basieren Sie diese Art von Dingen immer auf Fakten und nicht auf Vermutungen. In diesem Fall ist das Sammeln von Fakten ganz einfach: Zeichnen Sie langfristige Lese- / Schreib-IOPS-Profile Ihrer Produktionssysteme auf und finden Sie heraus, womit Sie in einem Disaster Recovery-Szenario leben können. Sie sollten so etwas wie das 99. Perzentil als Maß verwenden. Sie nicht mittelt verwenden , wenn IOPS cpacity Messung - die Spitzen sind alles , was Sache! Dann müssen Sie die erforderliche Kapazität und IOPS kaufen, die für Ihren DR-Standort erforderlich sind. SSDs sind möglicherweise der beste Weg, dies zu tun, oder auch nicht.

Wenn Ihre Produktionsanwendungen beispielsweise 7500 IOPS bei der 99. Perzentile erfordern, können Sie möglicherweise entscheiden, mit 5000 IOPS in einer Katastrophe zu leben. Das sind jedoch mindestens 25 Festplatten mit einer Kapazität von 15 KB, die direkt an Ihrem DR-Standort erforderlich sind. Daher ist SSD möglicherweise die bessere Wahl, wenn Ihr Kapazitätsbedarf gering ist (wie es scheint). Wenn Sie jedoch nur 400 IOPS in der Produktion messen, kaufen Sie einfach 6 SATA-Laufwerke, sparen Sie sich etwas Geld und nutzen Sie den zusätzlichen Speicherplatz zum Speichern weiterer Backup-Snapshots am DR-Standort. Sie können Lese- und Schreibvorgänge in Ihrer Datensammlung auch trennen, um anhand ihrer Spezifikationen herauszufinden, wie lange Nicht-Enterprise-SSDs für Ihre Workload geeignet sind.

Denken Sie auch daran, dass DR-Systeme möglicherweise weniger Speicher als die Produktion haben, was bedeutet, dass mehr IOPS erforderlich sind (mehr Auslagerungen und weniger Dateisystem-Cache).

Malayter
quelle
5

Selbst wenn die MLS-SSD nur ein Jahr hielt, wird der Austausch in einem Jahr viel billiger sein. Können Sie es also ertragen, die MLS-SSD zu ersetzen, wenn sie nicht mehr verfügbar ist?

Ian Ringrose
quelle
Ein guter Punkt, zumal sie in einem RAID-Array sein werden. Solange "zu viele" von ihnen nicht auf einmal ausfallen, ist dies tatsächlich plausibel.
Jeff Atwood
@ Jeff, wenn Sie einige mit Ihren Desktop-PCs austauschen können, so dass nicht alle die Nutzungspattern bekommen, wird dies dazu führen, dass es weniger leck wird, dass alle zur gleichen Zeit ausfallen.
Ian Ringrose
@ Jeff, ich denke zu einem großen Teil, Fail == "beginnen, sehr langsam Rechte zu tun" rathern dann "nicht Daten lesen"
Ian Ringrose
Lieben Sie keine Autokorrektur :-)
Jeroen Wiert Pluimers
3

Wenn wir das Problem mit der Schreibmenge beiseite lassen (oder nachweisen, dass SSDs auf Consumer-Ebene damit umgehen können), sind SSDs meiner Meinung nach eine gute Ergänzung für Umgebungen auf Enterprise-Ebene. Sie werden wahrscheinlich die SSDs in einem RAID-Array verwenden. RAID5 oder RAID6. Das Problem dabei ist, dass das Array nach einem Ausfall eines einzelnen Laufwerks immer anfälliger für Ausfälle wird. Die Zeit für die Neuerstellung hängt stark vom Volumen des Arrays ab. Es kann Tage dauern, bis ein Array mit mehreren TB wiederhergestellt ist, während ständig auf es zugegriffen wird. Bei SSDs werden die RAID-Arrays a) zwangsläufig kleiner, b) die Wiederherstellungszeit drastisch verkürzt.

Vlad
quelle
3

In einem Whitepaper zu den Unterschieden zwischen SLC und MLC von SuperTalent wird die Lebensdauer von MLC und die Lebensdauer einer SLC-SSD auf ein Zehntel geschätzt. Es besteht jedoch die Möglichkeit, dass die MLS-SSDs die Hardware, in die Sie sie einsetzen, überleben. Ich bin mir nicht sicher, wie zuverlässig diese Statistiken / Fakten von SuperTalent sind.

Angenommen, Sie erhalten eine ähnliche Unterstützung vom Lieferanten der MLC-SSDs, dann ist der niedrigere Preis einen Versuch wert.

chunkyb2002
quelle
1
Es wurde eine Lebensdauer von 5 Jahren für den typischen Desktop-Einsatz erwähnt. Wenn dies eine genaue Schätzung ist, überleben sie den Server in einer Rechenzentrumsumgebung nicht!
James Ryan
@JamesRyan: Obwohl in den meisten Berechnungen nicht angegeben, hängt die Lebensdauer stark vom Anteil des freien Speicherplatzes ab.
Ben Voigt
1
In den Organisationen, für die ich gearbeitet habe, wurde die Serverhardware immer nach 3 Jahren aktualisiert. Ich hatte den Eindruck, dass dies allgemein als Best Practice anerkannt ist, aber korrigiere mich, wenn ich falsch liege.
Chunkyb2002
3

Sie sollten nur die Anzahl der täglichen Schreibvorgänge berechnen, die Sie mit Ihrer aktuellen Konfiguration haben, und vergleichen, was der Hersteller garantiert, dass seine SSD-Laufwerke aushalten können. Intel scheint diesbezüglich am aktuellsten zu sein - schauen Sie sich beispielsweise die Datenblätter der SSD-Mainstream-Laufwerke an: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

In Abschnitt 3.5 (3.5.4) des Spezifikationsdokuments heißt es, dass Sie eine Laufwerkslaufzeit von mindestens 5 Jahren mit 20 GB Schreibzugriff pro Tag haben. Ich gehe davon aus, dass dies berechnet wird, wenn die gesamte Laufwerkskapazität genutzt wird und Sie keinen freien Speicherplatz für Schreibvorgänge bereitstellen.

Interessant ist auch das Datenblatt zum Einsatz von Mainstream-SSDs in einer Unternehmensumgebung.

Cearny
quelle
Leider ist dies gar nicht so einfach, da durch die Abnutzungskorrektur Schreibvorgänge verstärkt werden (denken Sie daran, dass sie darauf abzielen, Schreibvorgänge zu verbreiten und nicht zu reduzieren). Dies ist proprietär und kann je nach Verwendungsmuster sehr unterschiedlich sein.
James Ryan
Hm, sehr guter Punkt. Der Verlust des Befehls TRIM bei Verwendung der Laufwerke in einem RAID-Setup sollte auch die Schreibverstärkung erhöhen. Ich denke, es kommt alles auf die Idee jedes Herstellers des typischen Verwendungsmusters an.
cearny
2

Ich habe vor ein paar Jahren ein paar 32-GB-SLC-Laufwerke als Puffer für eine schrecklich schlecht gestaltete App bereitgestellt, die wir verwendet haben.

Die Anwendung bestand zu 90% aus kleinen Schreibvorgängen (<4 KB) und lief auf den SSD-Laufwerken konstant (rund um die Uhr) mit 14 KB / s. Sie waren RAID 1 konfiguriert, alles war rosig, die Latenz war gering!

Nach ungefähr einem Monat und der ersten Fahrt, buchstäblich innerhalb von drei Stunden, war auch die zweite Fahrt gestorben. RAID 1 ist doch kein so guter Plan :)

Ich würde mich mit den anderen Plakaten auf eine Art RAID 6 einigen, wenn nichts anderes diese Schreibzugriffe auf mehr Laufwerke verteilt.

Denken Sie jetzt daran, dass dies vor ein paar Jahren war und diese Dinge jetzt viel zuverlässiger sind und Sie möglicherweise kein ähnliches E / A-Profil haben.

Die App wurde überarbeitet, aber als eine Lücke, die Ihnen helfen kann oder auch nicht, haben wir eine große RAM-Disk erstellt, einige Skripte erstellt, um die RAM-Disk neu zu erstellen / zu sichern und den ungefähr einstündigen Datenverlust in Kauf zu nehmen /Wiederherstellungszeit.

Auch hier kann der Lebenszyklus Ihrer Daten unterschiedlich sein.

Sysboy
quelle