Kennt jemand Statistiken oder Studien darüber, wie oft Computer einen fehlerhaften RAM haben?
Update: Mein Computer ist in Ordnung! Ich habe keine RAM-Probleme, ich interessiere mich für die Statistik. Ich erhalte Fehlerberichte für meine Software, für die eine Ursache möglicherweise eine Fehlfunktion des Arbeitsspeichers auf dem Computer des Benutzers ist, und ich möchte wissen, wie wahrscheinlich dies ist.
Vielen Dank!
Carl
Antworten:
In einer Population von Computern der Serverklasse 36 wird alle 3 Monate ein korrigierbarer Fehler von der ECC-Schaltung festgestellt.
Wenn Sie einen Speicherfehler vermuten, sollten Sie ausführen
memtest86
, was heutzutage in fast jeder gängigen Linux-Distribution enthalten ist.quelle
Aus Robin Harris ' DRAM-Fehlerraten: Nightmare on DIMM Street :
Harris zitiert eine Studie, die über 2,5 Jahre an der Serverflotte von Google durchgeführt wurde . Beachten Sie, dass Server normalerweise EEC-RAM verwenden, das eine Fehlerkorrektur durchführt. Computer auf Verbraucherebene haben dies normalerweise nicht.
Berke Durak von Lambda Diode berechnet :
Ich werde nicht lachen, wenn ein Kollege das nächste Mal "kosmische Strahlung" sagt, wenn wir die Ursache eines Absturzes nicht identifizieren können ...
quelle
Sie können den Computer mit memtest86 + starten und über Nacht eine Überprüfung durchführen. So finde ich Probleme.
Ja, ich habe gesehen, dass Speichersticks schlecht wurden, wenn sie nur mit einem bestimmten Muster von Speicherschreibvorgängen fehlschlagen würden. Das BIOS des Computers hat das Problem nicht erkannt, aber memtest86 hat es über Nacht gefunden.
Ich habe gesehen, dass zwei RAM-Sticks von ungefähr fünfzig Computern, die ich in den letzten zehn Jahren verwendet habe, kaputt gegangen sind. Es passiert, aber nicht oft.
quelle
Vielleicht möchten Sie sich diese Google-Studie ansehen :
Aber sie sprechen von ECC-RAM, nicht von Ihrem normalen Benutzer-RAM
quelle
Ich habe in den letzten zehn Jahren eine Handvoll Speichermodule auf betriebsbereiten Servern sofort ausfallen sehen und eine etwas höhere Anzahl von Fehlern beim Ausbrennen von Memtest86 in Tests auf neu gelieferter Hardware. Dies sind Serversysteme, von denen fast alle über ECC-Speicher der einen oder anderen Art verfügen. Daher würde ich auf Client-Systemen mit fehlerfreiem RAM viel häufiger Probleme erwarten. Ich habe kein großes Beispielset, von dem aus ich arbeiten kann. Wir haben ein paar Dutzend eigene Server. In Bezug auf die Inbetriebnahme von Kundensystemen würde ich sagen, dass ich ungefähr hundert auf einer Ebene gearbeitet habe, auf der ich d tatsächlich auf den RAM achten.
Auf der Client-Seite habe ich ein bisschen mehr Erfahrung im Unternehmensmaßstab - ich war ein paar Jahre lang leitender Ingenieur für eine Gruppe, die 50.000 Endbenutzer-PCs verwaltet, und wir haben RAM-Hard- oder Soft-Fehler nie als signifikantes Problem angesehen, sicherlich nicht Dies wirkte sich auf jeden messbaren Prozentsatz der Systeme aus. Das heißt nicht, dass es nicht passiert ist, nur dass ich sehr überrascht wäre, wenn es ein Problem wäre, das> 1% der Business-Class-Desktops und -Notebooks betrifft. Einige spezifische Modelle wiesen sehr hohe Ausfallraten auf, die mit der Qualitätskontrolle zusammenhängen. Die erste Charge von IBM Thinkpad T30 hatte ein Problem mit ihrem zweiten DIMM-Steckplatz, das dazu führte, dass wir einige tausend Maschinen an einem Punkt reparieren und ersetzen mussten.
Dieser Blog-Beitrag von Larry Osterman von Microsoft aus dem Jahr 2005 könnte jedoch eine mögliche Erklärung für einige dieser Probleme liefern. Seine Analyse einiger seltsamer Fehler, die in dem relativ großen Datensatz von Windows Error Reporting gemeldet wurden, zeigt, dass viele dieser seltsamen Probleme durch Über- verursacht werden. Uhr. Wenn eine erhebliche Anzahl Ihrer Endbenutzer wahrscheinlich ein übertaktetes Consumer-Level-Kit verwendet, kann dies auf Ihre Fehler zurückzuführen sein.
quelle
Haben Sie die Möglichkeit, "gespiegelten Speicher" in Ihrem System zu verwenden - das würde Ihnen sagen, ob Sie Speicherprobleme haben oder nicht -, wenn dies vorhanden ist, besteht VIEL weniger Wahrscheinlichkeit, dass Fehler auf physische Speicherprobleme zurückzuführen sind.
quelle
Wenn Sie Linux verwenden:
Wenn Sie memtest86 + nicht neu starten möchten, können Sie einige Ergebnisse erzielen, indem Sie memtester ausführen, um den Speicher zu testen und festzustellen, ob er fehlerhaft ist oder nicht. Es macht einen realistisch guten Job, um die unregelmäßigen Fehler sowie die nicht deterministischen Fehler darin zu finden. Es verfügt über mehrere Tests zum Erfassen der Speichergrenze und erstellt einen ausführlichen Bericht über gefundene Fehler, ausgeführte Tests und die Zeit, die zum Auffinden der Fehler im Computer benötigt wird. Sie müssen nicht neu starten, sondern können es auf einem laufenden Linux-System ausführen.
Ich habe keinen Link für die App gefunden, aber hier sind die Informationen zum Debian-Paket :
quelle