Statistiken zur RAM-Störung

8

Kennt jemand Statistiken oder Studien darüber, wie oft Computer einen fehlerhaften RAM haben?

Update: Mein Computer ist in Ordnung! Ich habe keine RAM-Probleme, ich interessiere mich für die Statistik. Ich erhalte Fehlerberichte für meine Software, für die eine Ursache möglicherweise eine Fehlfunktion des Arbeitsspeichers auf dem Computer des Benutzers ist, und ich möchte wissen, wie wahrscheinlich dies ist.

Vielen Dank!

Carl

Carl Seleborg
quelle
Können Sie einige Einzelheiten zu dem Problem angeben, das Sie auf einen RAM-Fehler zurückführen?
Dave Cheney
Ein wenig. Wir berechnen Prüfsummen aus Dateien und aus Teilen dieser Dateien von der Festplatte und sobald sie in den Arbeitsspeicher geladen sind. Wir haben einige sehr seltsame Ergebnisse auf einigen Systemen der Benutzer festgestellt, die durch Fehler oder fehlerhafte Speicher erklärt werden könnten.
Carl Seleborg

Antworten:

6

In einer Population von Computern der Serverklasse 36 wird alle 3 Monate ein korrigierbarer Fehler von der ECC-Schaltung festgestellt.

Wenn Sie einen Speicherfehler vermuten, sollten Sie ausführen memtest86, was heutzutage in fast jeder gängigen Linux-Distribution enthalten ist.

Dave Cheney
quelle
Wie überwachen Sie das?
Antoine Benkemoun
Die meisten LOM-Systeme verfolgen dies in ihren Protokollen.
Chris S
3

Aus Robin Harris ' DRAM-Fehlerraten: Nightmare on DIMM Street :

Eine zweieinhalbjährige Studie über DRAM auf Zehntausenden von Google-Servern ergab, dass die DIMM-Fehlerraten hunderte bis tausendmal höher sind als gedacht - ein Mittelwert von 3.751 korrigierbaren Fehlern pro DIMM und Jahr.

Harris zitiert eine Studie, die über 2,5 Jahre an der Serverflotte von Google durchgeführt wurde . Beachten Sie, dass Server normalerweise EEC-RAM verwenden, das eine Fehlerkorrektur durchführt. Computer auf Verbraucherebene haben dies normalerweise nicht.

Berke Durak von Lambda Diode berechnet :

Nehmen wir zunächst an, Sie haben ein System ohne Fehlerkorrektur oder Parität. Die Wahrscheinlichkeit, dass während der Zeit T ein Bitfehler auftritt, beträgt 1- (1-p) ^ m.

Für T = 1 Stunde ist p = 1,3e-12 und m = 4 · 2 · 30 · 8, was 0,044 oder 4,4% ergibt. Das ist eine ziemlich hohe Wahrscheinlichkeit. In der Tat führt dies an einem Tag zu einer Wahrscheinlichkeit von 66% und in 72 Stunden zu einer Wahrscheinlichkeit von 96%.

Die Wahrscheinlichkeit, in 72 Stunden mindestens einen Bitfehler in 4 Gigabyte Speicher auf Meereshöhe auf dem Planeten Erde zu haben, liegt also bei über 95%.

Ich werde nicht lachen, wenn ein Kollege das nächste Mal "kosmische Strahlung" sagt, wenn wir die Ursache eines Absturzes nicht identifizieren können ...

Carl Seleborg
quelle
2
"20% der fehlerhaften Maschinen machen mehr als 90% aller beobachteten Fehler aus", "die Studie ergab, dass die Fehlerraten vom Motherboard abhängig waren". Ich denke, ich werde vorerst bei konventioneller Weisheit bleiben. Die Studie riecht nach "Lüge, verdammten Lügen und Statistiken". (nur meine 2 Cent)
Chris S
2

Sie können den Computer mit memtest86 + starten und über Nacht eine Überprüfung durchführen. So finde ich Probleme.

Ja, ich habe gesehen, dass Speichersticks schlecht wurden, wenn sie nur mit einem bestimmten Muster von Speicherschreibvorgängen fehlschlagen würden. Das BIOS des Computers hat das Problem nicht erkannt, aber memtest86 hat es über Nacht gefunden.

Ich habe gesehen, dass zwei RAM-Sticks von ungefähr fünfzig Computern, die ich in den letzten zehn Jahren verwendet habe, kaputt gegangen sind. Es passiert, aber nicht oft.

Shapr
quelle
Eine weitere Abstimmung für memtest86 +. Es geht Stück für Stück durch Ihr Gedächtnis und sucht nach Fehlern.
Dave Drager
Vielen Dank, aber ich brauche wirklich Statistiken: Das Problem tritt nicht auf meinem Computer auf, sondern auf dem Computer des Benutzers (und wir haben mehr als 200000 Benutzer).
Carl Seleborg
2

Vielleicht möchten Sie sich diese Google-Studie ansehen :

Im Durchschnitt trat bei etwa einem von drei Google-Servern jedes Jahr ein korrigierbarer Speicherfehler und bei einem von hundert Servern ein nicht korrigierbarer Fehler auf

Aber sie sprechen von ECC-RAM, nicht von Ihrem normalen Benutzer-RAM

Nicolas Charles
quelle
2

Ich habe in den letzten zehn Jahren eine Handvoll Speichermodule auf betriebsbereiten Servern sofort ausfallen sehen und eine etwas höhere Anzahl von Fehlern beim Ausbrennen von Memtest86 in Tests auf neu gelieferter Hardware. Dies sind Serversysteme, von denen fast alle über ECC-Speicher der einen oder anderen Art verfügen. Daher würde ich auf Client-Systemen mit fehlerfreiem RAM viel häufiger Probleme erwarten. Ich habe kein großes Beispielset, von dem aus ich arbeiten kann. Wir haben ein paar Dutzend eigene Server. In Bezug auf die Inbetriebnahme von Kundensystemen würde ich sagen, dass ich ungefähr hundert auf einer Ebene gearbeitet habe, auf der ich d tatsächlich auf den RAM achten.

Auf der Client-Seite habe ich ein bisschen mehr Erfahrung im Unternehmensmaßstab - ich war ein paar Jahre lang leitender Ingenieur für eine Gruppe, die 50.000 Endbenutzer-PCs verwaltet, und wir haben RAM-Hard- oder Soft-Fehler nie als signifikantes Problem angesehen, sicherlich nicht Dies wirkte sich auf jeden messbaren Prozentsatz der Systeme aus. Das heißt nicht, dass es nicht passiert ist, nur dass ich sehr überrascht wäre, wenn es ein Problem wäre, das> 1% der Business-Class-Desktops und -Notebooks betrifft. Einige spezifische Modelle wiesen sehr hohe Ausfallraten auf, die mit der Qualitätskontrolle zusammenhängen. Die erste Charge von IBM Thinkpad T30 hatte ein Problem mit ihrem zweiten DIMM-Steckplatz, das dazu führte, dass wir einige tausend Maschinen an einem Punkt reparieren und ersetzen mussten.

Dieser Blog-Beitrag von Larry Osterman von Microsoft aus dem Jahr 2005 könnte jedoch eine mögliche Erklärung für einige dieser Probleme liefern. Seine Analyse einiger seltsamer Fehler, die in dem relativ großen Datensatz von Windows Error Reporting gemeldet wurden, zeigt, dass viele dieser seltsamen Probleme durch Über- verursacht werden. Uhr. Wenn eine erhebliche Anzahl Ihrer Endbenutzer wahrscheinlich ein übertaktetes Consumer-Level-Kit verwendet, kann dies auf Ihre Fehler zurückzuführen sein.

Helvick
quelle
0

Haben Sie die Möglichkeit, "gespiegelten Speicher" in Ihrem System zu verwenden - das würde Ihnen sagen, ob Sie Speicherprobleme haben oder nicht -, wenn dies vorhanden ist, besteht VIEL weniger Wahrscheinlichkeit, dass Fehler auf physische Speicherprobleme zurückzuführen sind.

Chopper3
quelle
Danke Chopper3, aber nochmal: Die Frage betraf die Statistik. Mein eigener Computer ist in Ordnung und ich kann nicht mehr als 200000 Benutzer bitten, gespiegelten Speicher zu verwenden :-)
Carl Seleborg
Guter Punkt, gut gemacht - war sich des Umfangs jedoch nicht bewusst.
Chopper3
-1

Wenn Sie Linux verwenden:

Wenn Sie memtest86 + nicht neu starten möchten, können Sie einige Ergebnisse erzielen, indem Sie memtester ausführen, um den Speicher zu testen und festzustellen, ob er fehlerhaft ist oder nicht. Es macht einen realistisch guten Job, um die unregelmäßigen Fehler sowie die nicht deterministischen Fehler darin zu finden. Es verfügt über mehrere Tests zum Erfassen der Speichergrenze und erstellt einen ausführlichen Bericht über gefundene Fehler, ausgeführte Tests und die Zeit, die zum Auffinden der Fehler im Computer benötigt wird. Sie müssen nicht neu starten, sondern können es auf einem laufenden Linux-System ausführen.

Ich habe keinen Link für die App gefunden, aber hier sind die Informationen zum Debian-Paket :

rkthkr
quelle
Es tut mir leid, aber meine Frage betraf nicht mein eigenes System. Bitte lesen Sie genauer.
Carl Seleborg