Die Bedeutung des ECC-Speichers

11

Sind ECC-Speichermodule wichtig für einen nicht kritischen Server?

Ich dachte darüber nach, mir einen Spielzeug-Server für viele zufällige, unkritische Dinge zu besorgen. Sporadische Neustarts sind keine große Sache. Ich suche einen Anbieter, aber die Preise sind wahnsinnig günstig. Ihre Hardware klingt wie ein Witz für jede ernsthafte Server-Box: Desktop-Prozessoren, Nicht-ECC-RAM, No-Name-Chassis, keine Hotswap-SATA-Festplatte usw. (der Preis rechtfertigt es, denke ich).

Ich halte ECC-Speicher auf jedem "ernsthaften" Server für selbstverständlich, daher frage ich mich, ob es eine große Sache für "Spielzeug" -Geräte ist oder nicht.

PJK
quelle
3
Sie stellen den ECC-Speicher in Frage, scheinen jedoch gerne SATA-Laufwerke zu verwenden. Sehr eigenartig.
John Gardeniers
3
@ JohnGardeniers Sie sehen, auch wenn dies einmal im Jahr eine tote Festplatte bedeutet, macht es mir nichts aus, wenn ich einige Stunden Ausfallzeit und Raid-Wiederherstellung habe. Aber tägliche / wöchentliche Probleme zu haben wäre ärgerlich. Ja, ich mache mir in diesem Fall mehr Sorgen um meine Freizeit als um meine Verfügbarkeit ...
PJK
6
@ JohnGardeniers: SATA-Laufwerke sind nicht zuverlässiger als SCSI / SAS-Festplatten: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Hubert Kario

Antworten:

11

Von CERN-IT-Mitarbeitern veröffentlichte Daten ( Data Integrity ) deuten darauf hin, dass die Anzahl der Fehler, die aus dem RAM stammen, recht gering ist. Sie müssen Ihre Daten und die Hardwarekosten noch gewichten.

Weitere Informationen hierzu finden Sie bei StorageMojo .

Hubert Kario
quelle
10

ECC-RAM hilft grundsätzlich, Fehler zu vermeiden, die beim Lesen und Schreiben aus dem RAM auftreten. Die Wahrscheinlichkeit, dass tatsächlich ein Fehler auftritt, ist recht gering, aber nicht Null. Ich würde sagen, wenn Sie keine geschäftskritischen Dinge tun, könnten Sie ohne ECC-RAM davonkommen - wie gesagt, die Wahrscheinlichkeit, auf einen Fehler zu stoßen, den ECC verhindern würde, ist wirklich sehr, sehr gering.

BenGC
quelle
6

Was ist ein unkritischer Server? Eine, die scheitern kann?

ECC-RAM ist von grundlegender Bedeutung, wenn die Speicherzuverlässigkeit von grundlegender Bedeutung ist.

Zwei Dinge wachsen mit dem Wachstum der Speichergrößen:

  • die Abhängigkeit von Software vom Speicher, insb. Serversoftware (zB Caching nehmen)
  • die Wahrscheinlichkeit eines Speicherfehlers (p = num_bits * p_bit_failure)

Diese Intel-Präsentation zu ECC berichtet über folgende Fakten:

  • Die durchschnittliche Speicherfehlerrate für einen Server mit 4 GB Speicher, der rund um die Uhr ausgeführt wird, beträgt 150 Mal pro Jahr
  • ~ 4000 korrigierbare Fehler pro Speichermodul pro Jahr
  • Übertakten und Systemalter erhöhen die Ausfallraten erheblich
  • Wiederkehrende Ausfälle sind häufig und treten schnell auf (97% treten innerhalb von 10 Tagen nach dem ersten Ausfall auf) => Lawineneffekt
  • Bei einem ECC-Server mit einer Lebensdauer von 3 bis 5 Jahren beträgt die Wahrscheinlichkeit eines Systemausfalls und eines nicht korrigierbaren Speicherfehlers weniger als 0,001%

Eine weitere aktuelle Studie von WISC zeigt, dass ECC für diese ZFS-Systeme von wesentlicher Bedeutung ist:

ZFS hat keine Vorsichtsmaßnahmen für Speicherbeschädigungen getroffen: Fehlerhafte Datenblöcke werden an den Benutzer zurückgegeben oder auf die Festplatte geschrieben, Dateisystemvorgänge schlagen fehl und das gesamte System stürzt häufig ab.

Es ist wichtig zu beachten, dass andere Dateisysteme für diese Form der Datenbeschädigung genauso empfindlich sind wie ZFS.

ECC ist das, was Sie davon abhält, wenn möglich auf diese Probleme zu stoßen, und in katastrophalen Fällen, was Sie davor warnt, bevor es zu spät ist.

michele
quelle
1

Es ist einfach nicht so wichtig. Wenn Sie eine Verfügbarkeit von 99,999% benötigen, machen Sie sich darüber Sorgen. Ansonsten werden Sie häufiger neu starten, als Speicherfehler auftreten.

Jim B.
quelle
1

Diese Studie von Google aus dem Jahr 2009 ergab eine Fehlerrate zwischen 25000 und 70000 Fehlern pro Milliarde Gerätestunden pro Megabit. Das bedeutet, dass für 8 GB (verwendeten) RAM ungefähr 1,7 bis 4,8 Fehler pro Stunde auftraten.

Bitflips sind vorhanden und sollten nicht ignoriert werden, sobald die Datenintegrität von Bedeutung ist.

In Ihrem Fall (zufälliges, unkritisches Zeug) wäre es wahrscheinlich übertrieben.

bl4x1
quelle