Mirrored Mode RAM: Lohnt es sich?

18

Intels "Mirrored Channel Mode" für ein Blade-Server-Setup (Ihre typische mittelschwere MySQL-OLTP-Datenbank, die auf dem Bare-Metal-Blade ausgeführt wird; derzeit keine Virtualisierung) ist nicht wirklich bekannt.

In den Intel-Dokumenten konnte ich Folgendes finden:

Die Serien Intel Xeon Processor 5500 und Intel Xeon Processor 5600 unterstützen die Kanalspiegelung, um verfügbare Kanäle von DDR3-DIMMs in der gespiegelten Konfiguration zu konfigurieren. Die gespiegelte Konfiguration ist ein redundantes Abbild des Speichers und kann trotz sporadisch nicht korrigierbarer Fehler weiterarbeiten. Die Kanalspiegelung ist eine RAS-Funktion, bei der zwei identische Bilder von Speicherdaten beibehalten werden, wodurch eine maximale Redundanz erzielt wird.

Bei den Intel Server-Boards mit Intel Xeon Prozessor 5500 und Intel Xeon Prozessor 5600 erfolgt die Spiegelung kanalübergreifend. Aktive Kanäle enthalten das Primärbild und die anderen Kanäle enthalten das Sekundärbild des Systemspeichers. Der integrierte Speichercontroller in den Prozessoren der Intel Xeon Processor 5500-Serie und der Intel Xeon Processor 5600-Serie wechselt bei Lesetransaktionen zwischen beiden Kanälen. Schreibtransaktionen werden unter normalen Umständen an beide Kanäle ausgegeben.

Ich nehme jedoch nicht wirklich wahr, was sie hier unten liegen. Ich verliere die Hälfte meiner Speicherkapazität, gewinne aber "Redundanz" des Speichers und möglicherweise Lese- / Schreibvorteile? Wie RAID 1 für RAM? Hat jemand praktische Erfahrungen mit dieser Konfiguration?

Soßengesicht
quelle

Antworten:

7

Persönlich würde ich eher eine Form von Clustering als dieses Maß an Hardware-Ausfallsicherheit verwenden. Es ist für billige Komponenten wie Festplatten sinnvoll, sie zu verdoppeln, aber das Spiegeln des Speichers ist eine nette Sache, aber nicht so nützlich. Ich meine, was eher scheitert. eine CPU, Ihr Betriebssystem, Ihre Software, Ihr Mobo, Ihre PSU / s. Ich würde das Geld eher für Clustering einsetzen.

Chopper3
quelle
1
Genau meine Überlegungen: Obwohl dies für einen bestimmten Fehlerpunkt sicherlich nützlich ist, könnte ich viel mehr HA "Kästchen" abhaken, indem ich die Clustering-Route mit ein oder zwei anderen Blades (und wahrscheinlich einem anderen Chassis in einem anderen Rechenzentrum) gehe.
Gravyface
1
Clustering hilft Ihnen nicht, wenn Berechnungen termingerecht oder innerhalb eines Zeitrahmens durchgeführt werden müssen. In einigen Situationen dauert das Failover länger als für die Durchführung des Vorgangs erforderlich
Jim B,
7

"RAID 1 für RAM" ist eine genaue Beschreibung. Nach meiner Erfahrung gibt es keinen großen Leistungsvorteil, aber abhängig von der Busgeschwindigkeit im Vergleich zur Geschwindigkeit der Module kann Ihre Laufleistung variieren.

Was die Redundanz angeht, kommt es nicht so oft vor, dass ein Modul ausfällt.

Persönlich deaktiviere ich die Spiegelung, wenn ich sie aktiviert sehe.

Shane Madden
quelle
2
Danke Shane. Haben Sie schon einmal vorher / nachher ein Benchmarking durchgeführt?
Gravyface
@gravyface Kann nicht sagen, dass ich das leider habe; Ich habe gerade keine erkennbare Leistung festgestellt, die sich zwischen "Ein" und "Aus" unterscheidet (auf Datenbankservern und VM-Hosts). Einige harte Zahlen wären auf jeden Fall nett.
Shane Madden
2
Ich werde dann einige Benchmarks machen. Sehen Sie, ob es einen Unterschied macht. Ich kann nicht sagen, dass der Vorteil der Fehlerkorrektur ein greifbarer Vorteil ist, aber ich bin gespannt, wie er sich auswirkt. Ich werde ein paar Tage auf einige zusätzliche Antworten warten und diese dann als richtig markieren.
Gravyface
Ich sehe, dass Dimms regelmäßig schlecht werden, aber angesichts der Größe der Umgebung sollte ich alle 2 Wochen 1 Dimm sehen (statistisch gesehen)
Jim B
4

Ich habe gelesen, dass diese Art von Dingen (Sie können sie auch mit CPUs ausführen) in den riesigen Supercomputer-Clustern sehr nützlich ist.

Auf einigen dieser Cluster werden so viele Computer ausgeführt, dass alle paar Stunden ein Computerfehler auftritt. Schneller als die Jobs erledigen können. Das bringt die Berechnung durcheinander. Das Hinzufügen einer solchen Redundanz zu jedem Knoten kann die Zeitspanne zwischen Ausfällen mehr als verdoppeln.

Zan Lynx
quelle
Das ist also High-End-Zeug, das jetzt in den Mainstream gelangt, nehme ich an. Ich sehe nicht wirklich viel Wert für meine Bedürfnisse. Trotzdem danke.
Gravyface
Ja, das ist High End. Warten Sie, bis Sie Hot-Plug-CPUs UND CPU-SPIEGELUNG (!) In einem PC haben. Mainframes können bei einem Ausfall auf eine andere CPU umschalten.
TomTom
3

Dieser Speichermodus wurde speziell für Situationen entwickelt, in denen eine hohe Verfügbarkeit erforderlich ist. Sie sollten keinen großen Leistungsunterschied feststellen (da der Verlust eines Kanals unter normalen Betriebsbedingungen wahrscheinlich nicht spürbar ist), obwohl Sie tatsächlich eine Menge RAM verlieren. Bei aktivierter Spiegelung steht nur ein Drittel des gesamten Speichers zur Verfügung, da zwei DIMM-Steckplätze der primäre Kanal und zwei DIMM-Steckplätze der Sicherungskanal sind und zwei DIMM-Steckplätze nicht verwendet werden. (Zumindest ist das bei IBM so)

Normalerweise empfehle ich, es auszuschalten (wenn Sie eine App oder ein Betriebssystem haben, das RAM mag - und seien wir ehrlich: Gibt es eine, die dies nicht tut?) Oder bis zum Upgrade auf den Ex5-Chipsatz von IBM (HP und anderen bald) zu sparen mit ähnlichen Angeboten zu folgen), die eine Bootsladung mehr QPI hinzufügt.

Es kommt gelegentlich vor, dass "dieser Server unabhängig von der Anzahl der abgefeuerten Schüsse hochgefahren werden muss", und diese Art der Redundanz hilft. Zusätzlich dazu, dass Sie einen RAM mit weniger als hervorragender Qualität gekauft haben, können Sie sich so einen Bluescreen ersparen oder 2.

Jim B
quelle
Ja, ich sehe im Moment keinen großen Bedarf dafür. Offensichtlich mag niemand Ausfallzeiten, aber wenn wir uns mit HA befassen, werden wir uns mit größter Sicherheit mit Clustering befassen.
Gravyface
1
Dies als Reaktion auf Ihre Meldung, dass Sie alle zwei Wochen ein fehlerhaftes DIMM sehen. Wie oft sehen Sie nach Ablauf der Kulanzfrist fehlerhafte DIMMs? Ich kann mich nicht erinnern, jemals einen schlechten Arbeitsspeicher in der Produktion gehabt zu haben. Normalerweise bemerke ich es die ersten paar Stunden / Tage unter typischer Arbeitsbelastung.
Gravyface
Unsere Ergebnisse spiegeln die Rate wider, die Google bei cs.toronto.edu/~bianca/papers/sigmetrics09.pdf sieht . Wir haben ähnlich konfigurierte, vollständig mit Servern bestückte Karten mit vielen Dimms und speicherintensiven Anwendungen. Wenn ich mir eine meiner VMware-Umgebungen ansehe, sehe ich 3 fehlerhafte Dimms in 18 vollständig bestückten IBM hs22vs (324 Dimms). Diese Server sind seit ungefähr einem Jahr in Betrieb.
Jim B