CPU / Prozessor-Fehlerrate bei Berechnungen

7

Veröffentlichen Intel oder AMD Spezifikationen über die Rate, mit der Rechenfehler auf ihren CPUs zu erwarten sind? Ich würde vermuten, dass es sehr alters- und temperaturabhängig ist, aber es muss doch eine Art von Zahlen geben?

Ich bin nicht an offensichtlichen Herstellungsfehlern interessiert (bei denen eine ganze Menge defekt ist oder so). Ich interessiere mich für spontane Fehler aufgrund physikalischer Phänomene, die nicht mit Konstruktionsfehlern zusammenhängen. Es ist auch von Interesse, ob der Fehler von der CPU oder einem anderen Chip im System herrührt (beispielsweise würde ein kurzzeitiger Spannungsausfall des Prozessors ebenfalls zu Fehlern führen).

Ich bin neugierig, aber meine Netzsuche liefert nicht das, was ich will. Ich möchte nur grobe Vorstellungen davon bekommen. Ich habe mein Programm X Stunden lang laufen lassen, wie viele spontane Fehler ich erwarten konnte.

edA-qa mort-ora-y
quelle
Ich würde denken, dass es viel wahrscheinlicher ist, dass Sie durch Partikeltreffer einen kleinen Flip in den Systemspeichermodulen bekommen. Selbst wenn Sie die CPU-Fehlerrate finden könnten, gibt es sicherlich mehr zu beachten. Die meisten kommerziellen Serverhardware verwenden ECC-Speicher, aber ich habe nicht viel außerhalb der Luft- und Raumfahrt gehört, das Berechnungsredundanz verursacht. CPU-Redundanz im Fehlerfall, sicher ... aber nicht wirklich die Art der Redundanz der Berechnungen überprüfen.
Darron
1
Ja, nach all dem Material, das ich jetzt gefunden habe, scheint das Gedächtnis das größte Problem zu sein. Obwohl die Designüberlegungen von AMD darauf hindeuten, dass sie dies auch in ihren CPUs als Problem betrachten.
edA-qa mort-ora-y

Antworten:

3

Suchen Sie nach "Alpha-Partikeln". Das sind die wichtigsten physikalischen Phänomene, die relevant sind.

Aber nein, sie veröffentlichen solche Zahlen nicht.

Brian Carlton
quelle
Danke, das ergibt die Art von Informationen, nach denen ich suche. Die Fehler, die ich meine, heißen also "weiche Fehler" oder "vorübergehende Halbleiterfehler"?
edA-qa mort-ora-y
Ich habe herausgefunden, dass sie (zumindest AMD) Richtlinien und Zielraten haben, obwohl sie nicht veröffentlichen. Ein Arzt gab tatsächlich auch einige Preise an (allerdings nicht offiziell).
edA-qa mort-ora-y
1
Wie gelangt ein Alpha-Partikel in die CPU, wenn man bedenkt, dass es nicht mehr als ein paar Mikrometer einer festen Substanz passieren kann? Vielleicht meinst du kosmische Strahlung, die normalerweise Protonen sind? Oder meinen Sie damit, dass sich im IC selbst einige radioaktive Verunreinigungen befinden?
Oleksandr R.
4

Einige Dinge sind vorhanden. cpuidmit eax=01HRückgabe MCA - Machine Check Architecture in EDX 14-Bit:

Machine Check Architecture. The Machine Check Architecture, which
provides a compatible mechanism for error reporting in P6 family,
Pentium 4, Intel Xeon processors, and future processors, is
supported. The MCG_CAP MSR contains feature bits describing how
many banks of error reporting MSRs are supported.

Überprüfen Sie das Intel-Referenzvolumen 3B, Kapitel 15, MASCHINENPRÜFUNGSARCHITEKTUR :

The Pentium 4, Intel Xeon, Intel Atom, and P6 family processors
implement a machine-check architecture that provides a mechanism
for detecting and reporting hardware (machine) errors, such as:
system bus errors, ECC errors, parity errors, cache errors, and
TLB errors.

Intel 64-CPUs haben zusätzliche Prüfungen, siehe Kapitel 15.6, zum Beispiel gibt es:

  • Paritätsfehler im internen Mikrocode-ROM
  • FRC-Master / Slave-Fehler (Functional Redundancy Check)
  • Interner Paritätsfehler.

Siehe auch:

Gavenkoa
quelle