RAM-Tests uneinheitlich - was ist der wahrscheinlichste Schuldige? (dh was soll ich für das Ersetzen ausgeben)

20
  • Hauptplatine: GA-B85M-DS3H-A
  • CPU: Core i5 4430
  • RAM: PNY XLR8 DDR3 32 GB (4 x 8 GB) 1600 MHz (MD32768K4D3-1600-X9)
  • Netzteil: EVGA 500 W1 80+

Das Problem

Wenn alle 32 GB RAM installiert sind, fällt MemTest86 + 6.2 durchgehend aus. Der Fehler tritt immer während des ersten Durchlaufs auf, und die Fehler steigen schnell zu den Millionen von Fehlern an. Der Versuch, Windows auszuführen, führt zu zufälligen Neustarts und Abbruchfehlern (wie bei RAM-Fehlern zu erwarten).

Was ich versucht habe

  • Testen Sie ein einzelnes 8-GB-PNY-Modul in Sockel DIMM1. Schließt 4 Durchgänge von MemTest erfolgreich ab.
  • Testen Sie ein einzelnes 8-GB-PNY-Modul in Sockel DIMM2. Schließt 4 Durchgänge von MemTest erfolgreich ab.
  • Testen Sie ein einzelnes 8-GB-PNY-Modul in Sockel DIMM3. Schließt 4 Durchgänge von MemTest erfolgreich ab.
  • Testen Sie ein einzelnes 8-GB-PNY-Modul in Sockel DIMM4. Schließt 4 Durchgänge von MemTest erfolgreich ab.
  • Testen Sie alle vier 8-GB-PNY-DIMMs einzeln im Sockel DIMM1. Alle Module absolvieren erfolgreich 4 Durchgänge von MemTest.
  • Testen Sie zwei 8-GB-PNY-Module in den Sockeln DIMM1 und DIMM2. Schließt 4 Durchgänge von MemTest erfolgreich ab.
  • Testen Sie zwei 8-GB-PNY-Module in den Sockeln DIMM3 und DIMM4. Schließt 4 Durchgänge von MemTest erfolgreich ab.
  • Testen Sie das Motherboard mit vier 2-GB-DIMMs in allen Sockeln. Schließt 4 Durchgänge von MemTest erfolgreich ab.
  • Tauschen Sie die Reihenfolge der PNY-DIMMs in den Sockeln aus. Keine Änderung - MemTest-Fehler treten weiterhin auf.
  • Erhöhen Sie die RAM-Spannung der Hauptplatine von 1,5 V auf 1,65 V. Keine Änderung - MemTest-Fehler treten weiterhin auf.
  • Spielen Sie mit verschiedenen Kombinationen der manuellen RAM-Einstellungen im Setup-Dienstprogramm - Aktivieren / Deaktivieren des XMP-Profils, Festlegen der Voreinstellung "Erhöhte Stabilität" usw. Keine Änderung, MemTest-Fehler treten weiterhin auf.

Ich denke, ich kann schlechtes RAM und schlechte RAM-Sockel sicher ausschließen. Die MemTest-Tests schlagen nur fehl, wenn alle vier 8-GB-Module gleichzeitig installiert sind.

Ich habe die Spannungen gemessen, die vom Netzteil kommen, und alles dort scheint stabil zu sein, auch wenn alle vier Sticks installiert sind.

Während ich dies schreibe, habe ich eine letzte Möglichkeit ausprobiert, die RAM-Geschwindigkeit im BIOS manuell auf 1066 MHz zu reduzieren. Bisher hat MemTest einen Durchgang absolviert und ist im zweiten fehlerfrei. (Alle oben genannten Tests wurden mit der nativen RAM-Geschwindigkeit von 1600 MHz durchgeführt.) Dadurch kann ich das System zwar mit etwas langsameren RAM-Geschwindigkeiten verwenden, dies scheint jedoch keine dauerhafte Lösung zu sein.

Wenn MemTest-Fehler auftreten, treten sie immer genau an der gleichen Position auf dem 64-Bit-Adressbus auf:

Bit Error Mask: 00000000FF000000

Außerdem treten NIEMALS Fehler unterhalb der 4-GB-Grenze auf. Mit anderen Worten, alle Fehler treten im Adressraum zwischen 4 GB und 32 GB auf.

Ich gehe davon aus, dass dies ein seltsames Interaktions- oder Timing-Problem mit der CPU und dem RAM sowie dem Motherboard ist, da die Fehler sehr konsistent sind, nur in einer bestimmten Konfiguration auftreten und durch Verlangsamung des RAM gemildert zu werden scheinen treten nur oberhalb der 4GB Barriere auf. Meine Frage ist: Ist es wahrscheinlicher, dass meine CPU oder mein Motherboard der Schuldige ist?

Ich hatte vor, diesen Computer auf einen Core i7-4790K zu aktualisieren. Wenn also die CPU der wahrscheinliche Schuldige ist (ich weiß, dass der Speichercontroller in diesen neueren Modellen auf der CPU ist), funktioniert dies gut, da ich ein Upgrade plane es trotzdem, aber ich frage mich, ob es eine Chance gibt, dass das Motherboard selbst auch Teil des Problems sein könnte. dh ich möchte nicht das Geld für die i7-CPU ausgeben, nur um genau das gleiche Problem zu haben und herauszufinden, dass ich auch das Motherboard ersetzen muss ...

Rat?


BEARBEITEN: Die langsamere RAM-Geschwindigkeit erzeugte immer noch Fehler, aber nur, wenn der Test den dritten Durchgang erreichte. Ich habe den Test mit nur einer aktiven CPU neu gestartet, um eine Interaktion auf der CPU selbst zu testen.

fdmillion
quelle
Die einzige Möglichkeit, um zu bestätigen, ob es sich um Speicher, Mobo oder CPU handelt, besteht darin, RAM in einem anderen kompatiblen System zu testen.
Moab
2
Wenn das Problem beim Verschieben von RAM-Chips nicht behoben werden kann, ist das Motherboard fehlerhaft.
Joshua
1
Wenn Sie diesen Speicher im Dual-Modus betreiben oder wenn Sie 4 (8g) Module im Dual-Modus haben, können Sie möglicherweise SPD (Auto) deaktivieren und die Timings ein wenig optimieren und zum Laufen bringen. Sagen wir, es ist 10,11,10,24. Stimmen Sie es auf 11,12,11,32 ab und testen Sie es stattdessen so. (Ja, das ist eine Vermutung.) Wenn dies zu 100% ohne Unterbrechung funktioniert, ist es weniger wahrscheinlich, dass es sich um ein Wärmeproblem oder ein Motherboard-Problem handelt. Leute mit 4x8gig-Modulen hatten Probleme, die Sie zuvor beschrieben haben. Wenn es Unterstützung für Spannungsregelung gibt und die CPU keine verbogenen Pins hat, kann dies eine Möglichkeit sein, Dinge zum Laufen zu bringen, die nicht auf der Kompatibilitätsliste stehen. Testen Sie das und melden Sie sich bei uns.
Psycogeek
2
"Die langsamere RAM-Geschwindigkeit verursachte immer noch Fehler, aber nur, wenn der Test den dritten Durchgang erreichte." Führen Sie währenddessen zusätzliche Schritte durch, um die Kühlung des RAM zu testen? Sogar ein vorübergehend hinzugefügter Lüfter oder ein externer Lüfter, der Luft über den Stößel und seine Spannungsregelkreise bewegt, könnte testen, ob Wärme eines der Probleme ist.
Psycogeek
@Psycogeek +1 für den Vorschlag einer Timing-Änderung. Einige RAM-Module spielen zeitlich nicht gut mit anderen (sogar die gleiche Marke oder der gleiche Modultyp). Ich hatte ein ähnliches Problem wie OP und konnte es lösen, indem ich die Zeiten manuell einstellte.
Amziraro

Antworten:

18

Dies hört sich nicht so an, als ob eine Komponente defekt wäre, sondern Sie verwenden eine inkompatible Kombination.

Wenn mehrere Sockel auf demselben Speicherbus belegt sind, erhöht sich die Kapazität auf jeder Datenleitung und die Anstiegszeit wird verlangsamt. Dies kann dazu führen, dass Übergänge zu spät eintreffen und falsch erkannt werden. Dieses Phänomen ist den Elektrotechnikern als "Fan-Out" bekannt.

Dies ist weiter kompliziert aufgrund des internen Fan-Outs eines Speichermoduls. Die Anzahl und Topologie der DRAM-Geräte auf dem Modul, die als "Rang" bezeichnet werden, haben Einfluss darauf, wie viele Module Sie erfolgreich parallel anschließen können.

Server-Motherboards, die viele Speichersockel unterstützen, erfordern tatsächlich gepufferten Speicher, bei dem ein kaskadierendes Netzwerk von Puffern verwendet wird, um den Fan-Out (und damit die Kapazität) zu begrenzen, der von jedem einzelnen erkannt wird. Es gibt eine Verzögerung, die durch die Puffer selbst verursacht wird, die sich jedoch nur logarithmisch mit der Anzahl der Ladevorgänge erhöht, während sich die Speicherkapazität ohne Puffer linear erhöht.

Wikipedia diskutiert dies: https://en.wikipedia.org/wiki/Memory_rank

Einige Motherboard-Handbücher nennen solche Dinge. Für andere können Sie die Informationen aus den RAM-Kompatibilitätslisten ableiten. Das ASUS Z170-A-Motherboard zeigt beispielsweise, dass Dual Rank (im Handbuch als DS = Double Sided bezeichnet) nur in zwei Steckplätzen gleichzeitig auf diesem Board verwendet werden kann, anstatt dass vier Single Rank-DIMMs gleichzeitig verwendet werden können .

Bildbeschreibung hier eingeben

Ben Voigt
quelle
Angenommen, dies ist die Ursache des Problems. Würde es helfen, die SPD auszuschalten und die Timing-Einstellungen etwas langsamer zu ändern, um die langsameren Anstiegs- / Abfallzeiten auszugleichen?
brhans
1
Ich bin mir nicht sicher, ob dies tatsächlich richtig ist. Consumer- Haswell- Prozessoren unterstützen im Allgemeinen vier Speicherränge pro Kanal, was ausreicht, um vier doppelseitige Module in zwei Speicherkanälen zuzulassen. Warum sollte dies das Problem sein? Dies scheint auch nicht die Tatsache zu erklären, dass die Probleme nur oberhalb der 4-GB-Grenze auftreten. Im Handbuch des Motherboards wird außerdem angegeben , dass der zugrunde liegende B85-Chipsatz 32 GB Arbeitsspeicher unterstützt, und es wird keine Einschränkung hinsichtlich der Anzahl der Arbeitsspeicherränge erwähnt.
bwDraco
2
@bwDraco: Auch wenn sich der Speichercontroller auf der CPU befindet, ist das Motherboard von Bedeutung. Das PCB-Layout kann sich darauf auswirken. Eine suboptimale Längenanpassung verringert den Phasenabstand der Signale (dies ist auch der Grund, warum Fehler mit bestimmten Bytes oder Bitpositionen korrelieren). Dass das Motherboard-Handbuch nicht über Ränge spricht, bedeutet nicht, dass alle Kombinationen unterstützt werden, es bedeutet nur, dass es ein Mist-Handbuch ist, das nicht ins Detail geht.
Ben Voigt
1
@brhans: Es kommt nicht auf die Zeitparameter an, sondern auf die Speichertaktfrequenz, da das Problem in der Übertragung zwischen der CPU und den DIMMs liegt, die nicht im DRAM enthalten sind. SPD verfügt normalerweise über eine Reihe von Profilen, die unterschiedlichen Taktfrequenzen entsprechen. Die Auswahl eines anderen Profils ist besser, als vollständig manuell vorzugehen.
Ben Voigt
1
Scheint auf jeden Fall ein Problem mit der Signalintegrität des Motherboards zu sein. Die größeren Module können eine höhere Kapazität pro Pin aufweisen als die kleineren Module, insbesondere wenn die Module selbst einen doppelten Rang haben. Dies kann genau dieses Problem verursachen, wenn Sie die Ränge vollständig ausfüllen. Es ist möglich, dass ein Modul mehr als einen Rang hat. So könnten vier Ränge pro Kanal leicht zwei hochdichte Module mit zwei Rängen sein. Dies könnte durch die elektrischen Eigenschaften und die Verlegung der Leiterbahnen auf der Hauptplatine noch verstärkt werden. Mein Vorschlag: versuchen Sie es mit einem anderen Motherboard.
alex.forencich
9

Das klingt nach einem Problem im integrierten Speichercontroller des Prozessors .

In modernen Systemen spielen Motherboards für die Speicherverwaltung eigentlich keine Rolle mehr, als nur einen Pfad zwischen den Speichermodulen und dem Prozessor bereitzustellen. Der Speicher ist direkt mit dem Prozessor verbunden, um die Latenz zu minimieren. Die " Northbridge ", die in älteren Systemen den Speicher mit dem Prozessor verbindet, ist jetzt Teil des Prozessors. (Die Firmware oder der PCH steuern möglicherweise, wie der Prozessor den RAM ausführt, aber es ist nicht sinnvoll, Bitfehler in der von Ihnen beschriebenen Art zu verursachen, da dies letztendlich in der Verantwortung des Prozessors liegt.) Der Verdacht, dass in einer solchen Situation ein fehlerhafter IMC vorliegt.

Tatsächlich wäre ich sehr überrascht, wenn die Hauptplatine oder die Systemfirmware für die aufgetretenen Probleme verantwortlich sind.

bwDraco
quelle
Was ist mit einem verbogenen Stift?
Michael Hampton
6
@Michael: Ein verbogener Pin würde auch zu Fehlern beim Testen einzelner Module führen.
Ben Voigt
4

Ich sehe einige schlechte Bewertungen für das BIOS auf diesem Motherboard. Ich würde zunächst nach einem BIOS-Update suchen. Sparen Sie niemals auf dem Motherboard.

Atoadaso
quelle
BIOS ist aktuell. Der RAM ist zwar nicht auf der "qualifizierten" Liste, hat aber die gleichen Timings wie viele andere dort aufgelistete Module.
Fdmillion
Ich würde dann das Motherboard ersetzen. Es muss nicht immer top sein. Beginnen Sie einfach mit einer Preisspanne, die Sie sich leisten können, und suchen Sie nach der mit den meisten Bewertungen (lesen Sie sie auch). Diejenigen mit der größten Anwenderbasis werden mit größerer Wahrscheinlichkeit längerfristig BIOS- und Chipsatz-Updates unterstützen.
Atoadaso
Haben Sie überprüft, ob das Motherboard überhaupt 32 GB Speicher auf einmal richtig verarbeiten kann? Sie können auch den Speichermanager-Chip auf der Hauptplatine finden und nachsehen, wie viel Speicher ordnungsgemäß verarbeitet werden kann.
Meilen RF
1

Möglicherweise ist auch der Arbeitsspeicher fehlerhaft, obwohl dies nicht der Fall zu sein scheint. Ich hatte kürzlich ein Problem mit meinem Heimserver, bei dem es zu einem tödlichen Missgeschick mit Eistee kam ...

Ich habe den gesamten Prozess durchlaufen, bei dem jedes Teil einzeln ausgetauscht wurde (2 CPUs, Mobo, Netzteil und 2 Bänke mit 16 GB (2x8 GB) RAM), und alles wurde gut getestet, als ich nur eine einzelne Bank RAM mit einer einzelnen CPU verwendet habe (mit Ausnahme von 1 CPU, die Toast war).

Es war egal, welche Konfiguration ich verwendete, es funktionierte immer, wenn ich eine einzelne CPU und eine RAM-Bank hatte (egal ob es 16 GB oder 32 GB RAM waren), aber als ich die zweite CPU einbaute und den RAM auf 16 GB aufteilte Pro Bank konnte der Server nicht gestartet werden.

Erst als ich eine RAM-Bank komplett ausgetauscht habe, hat sie endlich richtig gebootet und funktioniert und ist es seitdem geblieben.

tl; dr : Wie @moab in seinem Kommentar feststellte, können Sie dies erst mit Sicherheit feststellen, wenn Sie jede Komponente in einem kompatiblen System testen

Taegost
quelle