In Anbetracht der Tatsache , dass viele Server-Class - Systeme sind ausgestattet mit ECC RAM , ist es notwendig oder nützlich Einbrennen in den Speicher - DIMMs vor ihrem Einsatz?
Ich bin auf eine Umgebung gestoßen, in der der gesamte Arbeitsspeicher des Servers einem langen Einbrenn- / Belastungsprozess unterzogen wird. Dies hat gelegentlich zu Verzögerungen bei der Systembereitstellung geführt und sich auf die Hardware-Vorlaufzeit ausgewirkt.
Die Serverhardware ist in erster Linie Supermicro , daher wird der RAM von einer Vielzahl von Anbietern bezogen. Nicht direkt vom Hersteller wie ein Dell Poweredge oder HP ProLiant .
Ist das eine nützliche Übung? Nach meiner bisherigen Erfahrung habe ich nur Standard-RAM des Herstellers verwendet. Sollten die POST- Speichertests nicht den DOA-Speicher erfassen? Ich habe lange vor dem eigentlichen Ausfall eines DIMMs auf ECC-Fehler reagiert, da die ECC-Schwellenwerte normalerweise den Auslöser für die Platzierung der Garantie darstellten.
- Brennen Sie Ihren RAM ein?
- Wenn ja, welche Methode (n) verwenden Sie, um die Tests durchzuführen?
- Wurden vor der Bereitstellung Probleme festgestellt?
- Hat der Einbrennprozess zu zusätzlicher Plattformstabilität geführt, anstatt diesen Schritt nicht auszuführen?
- Was tun Sie, wenn Sie einem bestehenden Server RAM hinzufügen ?
quelle
Nein.
Das Ziel des Einbrennens von Hardware besteht darin, diese so weit zu belasten, dass ein Ausfall einer Komponente katalysiert wird.
Dies mit mechanischen Festplatten zu tun, wird einige Ergebnisse bringen, aber für den Arbeitsspeicher wird es nicht viel bringen. Die Art der Komponente ist so beschaffen, dass Umgebungsfaktoren und das Alter mit größerer Wahrscheinlichkeit die Ursache für Fehler sind, als dies jemals beim Lesen und Schreiben auf den Arbeitsspeicher (selbst bei maximaler Bandbreite für einige Stunden oder Tage) der Fall wäre.
Vorausgesetzt, Ihr RAM ist von ausreichender Qualität, damit das Lot nicht schmilzt, wenn Sie es zum ersten Mal verwenden, hilft Ihnen ein Einbrennvorgang nicht, Fehler zu finden.
quelle
Wir kaufen Blades und kaufen im Allgemeinen einen relativ großen Block von ihnen auf einmal. Daher holen wir sie ein und installieren sie über TAGE, bevor unsere Netzwerkports bereit / sicher sind. Wir nutzen diese Zeit, um memtest rund um die Uhr zu verwenden, manchmal auch länger, wenn es über ein Wochenende dauert. Sobald dies erledigt ist, wird das grundlegende ESXi-System heruntergefahren und IP ist bereit, das Host-Profil anzuwenden, sobald das Netzwerk aktiv ist. Also ja, wir testen es, eher aus einer Gelegenheit heraus als aus der Notwendigkeit heraus, aber es hat ein paar DOA-DIMMs zuvor erwischt, und ich mache es physisch nicht, so dass ich keine Anstrengung brauche. Ich bin dafür.
quelle
Nun, ich denke, es hängt genau davon ab, was Ihre Prozesse sind. Ich führe MemTest86 IMMER im Arbeitsspeicher aus, bevor ich es in ein System stecke (Server oder auf andere Weise). Nachdem Sie ein System in Betrieb genommen haben, können Probleme, die durch fehlerhaften Speicher verursacht werden, nur schwer behoben werden.
Was das eigentliche "Stresstesten" des Gedächtnisses betrifft; Ich muss erst noch herausfinden, warum dies nützlich ist, wenn Sie nicht zu Übertaktungszwecken testen.
quelle
Ich weiß nicht, aber ich habe Leute gesehen, die es tun. Ich habe nie gesehen, dass sie etwas davon haben, ich denke, es könnte ein Kater oder Aberglaube sein.
Persönlich bin ich wie Sie darin, dass die ECC-Fehlerraten für mich nützlicher sind - vorausgesetzt, der RAM ist keine DOA, aber das wissen Sie trotzdem.
quelle
Für Nicht-ECC-RAMs ist eine Laufzeit von 30 Minuten unter memtest86 + hilfreich, da es normalerweise keine zuverlässige Methode zur Erkennung von Bitfehlern gibt, wenn das System ausgeführt wird.
Blue-Screening wird nicht als zuverlässige Methode angesehen ...
Und ein wenig flockiger Arbeitsspeicher wird oft nicht sofort angezeigt, erst nachdem das System eine vollständige Speicherauslastung festgestellt hat, und dann nur, wenn die Daten in diesem Arbeitsspeicher Code waren, der verwendet wurde und dann stürzte ab. Datenkorruption kann für lange Zeit unbemerkt bleiben.
Für den ECC-RAM wird nichts ausgeführt, was der Speichercontroller selbst nicht ausführt. Dies macht also keinen Sinn. Es ist nur Zeitverschwendung.
Nach meiner Erfahrung sind Leute, die darauf bestehen, einzubrennen, in der Regel alte Leute, die es immer so gemacht haben und es aus Gewohnheit tun, ohne wirklich zu glauben, dass die Dinge wahr sind.
Oder es sind junge Leute, die das vorgeschriebene Verfahren dieser alten Leute befolgen.
quelle
Es hängt davon ab, ob.
Wenn Sie 50.000 neue RAMs bereitstellen und wissen, dass diese bestimmte Hardware nach weniger als einem Tag eine Ausfallrate von 0,01% aufweist, muss es statistisch gesehen mehrere geben, die am ersten Tag ausfallen. Einbrennen soll das fangen. Bei Bereitstellungen in dieser Größenordnung wird ein Ausfall erwartet, keine Ausnahmesituation.
Wenn Sie jedoch nur ein paar Hundert Artikel bereitstellen, sind Statistiken höchstwahrscheinlich auf Ihrer Seite, da Sie ziemlich Pech haben müssen, um fehlerhafte Teile zu erhalten.
quelle