Wie können CPUs stabil sein, wenn sie so viele Transistoren haben?

10

Wie wir wissen, besteht eine CPU aus Milliarden von Transistoren auf einem einzigen Miniaturbild. Was passiert, wenn einer der Transistoren kaputt geht?

Verfügt die CPU über einen automatischen Wiederherstellungsmechanismus?

cpuer
quelle
6
Tatsächlich enthalten die größeren heutzutage Milliarden von Transistoren.
Starblue
6
"stabil" ist wahrscheinlich nicht das richtige Wort, da dies eher auf Themen wie Metastabilität hinweist. Eine bessere Wahl für dieses Thema wären Wörter wie "fehlerfrei" oder "Ertrag". Oder Sie fragen nach der Stabilität des Herstellungsprozesses und nicht nach den resultierenden Chips.
Chris Stratton
2
@ ChrisStratton, ich denke, OP fragt möglicherweise mehr nach Zuverlässigkeit als nach Ertrag.
Das Photon
1
Wenn einer der Transistoren bricht, werfen Sie den Chip heraus. Es gibt keine Redundanz (außer einigen spezifischen Anwendungen) und keine Reparaturoptionen.
Dmitry Grigoryev

Antworten:

18

Es ist einfach, wir testen sie, bevor wir sie verkaufen und werfen die schlechten raus.

Es gibt viele Möglichkeiten, dies zu tun - verschiedene Leute machen verschiedene Dinge, verwenden oft eine Kombination aus:

  • Einige Tests sind schnell, um sicherzustellen, dass sie schnell genug sind.

  • Andere Tests beinhalten einen Modus, der einige oder alle Flipflops im Chip in riesige serielle Schieberegister umwandelt. Wir takten bekannte Daten in diese Ketten, lassen den Chip für einen Takt laufen und scannen dann die neuen Ergebnisse wieder heraus und überprüfen, ob sie übereinstimmen Unsere vorhergesagten Ergebnisse - automatische Testwerkzeuge erzeugen einen minimalen Satz von "Scan-Vektoren", die jedes zufällige Gate oder jeden Transistor auf dem Chip testen - andere Vektoren führen spezielle Tests von RAM-Blöcken durch.

  • andere testen, ob alle externen Drähte korrekt verbunden sind

  • Wir stellen sicher, dass keine ungesunde Strommenge gezogen wird

Das Testen von Zeit kostet Geld. Manchmal führen wir einige einfache Tests auf offensichtlich tote Chips durch, bevor sie verpackt werden, um die schlechten zu verwerfen, und dann weitere Tests, nachdem die Verpackung abgeschlossen ist

Taniwha
quelle
1
"Es ist einfach, wir testen sie, bevor wir sie verkaufen und die schlechten rauswerfen." Wenn dies das einzige Qualitätssystem wäre, hätten Sie wahrscheinlich eine Ausbeute von 0,00000000001% mit 1 Milliarde Transistorgeräten
Federico Russo
2
So einfach ist das wirklich; Der Trick liegt in der extrem großen Menge an Simulationen und Regelprüfungen im Voraus, um sicherzustellen, dass Ihre Ausbeute akzeptabel ist. Es gibt selten Redundanz in der CPU-Logik selbst; Manchmal kommt es zu einer gewissen Redundanz der On-Chip-RAMs.
pjc50
Wenn das Design stimmt, sind Ihre individuellen Fehler auf Materialfehler, Verunreinigungen, Prozessfehler usw. zurückzuführen. Obwohl nur wenige Wafergrößen verwendet werden, sind größere ICs teurer als ihre proportionale Größe, da die Wahrscheinlichkeit eines Fehlers mit zunimmt Bereich. In einigen Fällen können Sie einen Chip mit mehr Funktionseinheiten haben, als er manchmal verkauft wird, sodass er möglicherweise immer noch marktfähig ist, wenn einer schlecht ist, aber das ist begrenzt. Manchmal können Sie FPGAs mit einem Rabatt kaufen, die nur getestet werden, um von einer bestimmten Konfigurationsdatei verwendet zu werden, anstatt mit einer beliebigen zu arbeiten.
Chris Stratton
2
Ich denke, Sie haben vergessen, Hersteller wie AMD, die Prozessoren mit schlechten Kernen verkaufen, als ein anderes Modell mit gesperrtem Kern zu erwähnen. Das ist eine Art Redundanz oder vielleicht kluges Marketing.
Akaltar
Wenn sich jemals jemand gefragt hat, wie graue Marktteile geliefert werden, sollte er sich nicht mehr fragen. Ich habe am Software-Ende von Chip-Fab-Systemen gearbeitet, und das hier beschriebene automatisierte Testen ist ein großer Teil der Zeit- und Geldkosten für Anlagen.
12

Um etwas zu erweitern, was andere gesagt haben: Es gibt eine Validierung und danach eine Klassifizierung der Chips.

Transistoren in CPUs neigen dazu, ihre Probleme bei höheren Frequenzen zu zeigen. Daher ist es üblich, eine CPU herzustellen und sie dann als mehrere verschiedene Produkte zu vermarkten. Die billigeren CPUs sind tatsächlich beschädigte Versionen der teuren CPU. Eine andere Option ist das Deaktivieren bestimmter Teile der CPU. Zum Beispiel stellte AMD Prozessoren mit BArton-Kern her. Es wurden auch Prozessoren mit Thorton-Kern verkauft. Thorton war kein neuer Kern. Stattdessen war die Hälfte des L2-Cache defekt und deaktiviert. Auf diese Weise hat AMD einige Wiederherstellungen auf den CPUs vorgenommen, die sonst verschwendet worden wären.

Das Gleiche geschah mit den 3 Kernprozessoren von AMD. Es handelte sich ursprünglich um 4 Kernprozessoren, aber einer der Kerne wurde als defekt eingestuft, sodass er deaktiviert war.

AndrejaKo
quelle
2
Es ist nicht ungewöhnlich, ein Chip-Design mit Funktionen zu erstellen, die Sie durch Durchbrennen von Sicherungen deaktivieren können. Einfache Wirtschaftlichkeit der Chipausbeute: Wenn wir den gesamten oder einen Teil des Chips retten können, indem wir ihn langsamer ausführen oder eine Funktion deaktivieren, die im Test fehlgeschlagen ist, können wir einen Teil der Kosten dieses Teils zurückerhalten, anstatt den gesamten Teil wegzuwerfen. Sie können auch auf die Intel 386 SX und DX als Beispiele zurückgreifen. und so ziemlich jede CPU ist geschwindigkeitsabhängig. Die langsameren sind Teile, die bei höheren Geschwindigkeiten versagt haben.
old_timer
2
Nein, nicht der 386SX / 386DX. Diese Chips haben eine völlig andere Busschnittstelle. Sie deaktivieren nicht nur einen Teil des 386DX, um einen 386SX zu erhalten. Was Sie sagen, gilt für den 486DX / 486SX, bei dem die FPU deaktiviert ist.
Michael Karcher
6

Die Antwort auf Ihre Frage lautet "Nein". Derzeit gibt es keine automatischen Wiederherstellungsmethoden für Hardwarefehler.

Hersteller entwickeln ihre Prozesse so, dass sie die bestmögliche Ausbeute (Dollar) aus ihren Wafern erzielen. Durch Schrumpfen der Transistoren können sie mehr Funktionalität auf weniger Fläche bringen. Dies kann als mehr Chips (mit der gleichen Funktionalität) pro Wafer angesehen werden. Wenn die Chipgröße schrumpft, können Sie mehr von ihnen aus einem Wafer herausholen, aber wenn sie schrumpfen, werden mehr von ihnen schlecht. Die Hersteller akzeptieren dies und setzen ständig neue Maßstäbe, um Chips zu verkleinern. Die Sache, die ihnen sagt, dass sie am Rand des Umschlags sind, sind schlechte Chips.

Wenn ein Unternehmen die Feature-Größe auf 70% der alten Feature-Größe verkleinern kann, kann es etwa die doppelte Anzahl von Chips auf einem Wafer erhalten. Wenn ihre Ausbeute beim alten Verfahren 95% betrug (z. B. 95 gute Chips von 100 Chips auf einem Wafer) und ihre Ausbeute beim neuen Verfahren 75% betrug (150 gute Chips von 200 auf einem Wafer), verdienten sie Geld der neue Prozess.

Jahrgang
quelle
5
Bei einigen Arten von Chips, wie z. B. NAND-Flash-Speichern, schieben die Hersteller die Hüllkurve routinemäßig über den Punkt hinaus, an dem Null-Fehler-Chips die Norm wären, aber die meisten Fehler weisen etwas vorhersehbare Eigenschaften auf, und die Geräte, die die Chips verwenden, werden dies voraussichtlich tun arbeite um sie herum.
Superkatze
3

Bei kleinen Knoten besteht jeder "Transistor" aus 2 Gattern, es sei denn, Sie haben Speicher, wie z. B. SRAM. Wenn einer nicht funktioniert, haben Sie nur einen langsamen Treiber. Wenn es für SRAM nicht erfolgreich ist, "blasen" Sie einfach die Reihe. Wenn beide FETS am Transistor ausfallen, hätten Sie ein sehr teures Stück Sand, aber ich persönlich habe das noch nie erlebt. Die modernen FinFETs sind so klein, dass es aufgrund der Art der Lithographie und der Wahrscheinlichkeit eine Reihe von Produktionsproblemen gibt (hauptsächlich Probleme). Sie werden feststellen, dass die ersten Dinge bei neuen Prozessen FPGAs sind, da Sie einfach die fehlerhaften Zellen "sprengen" und das Routing-Diagramm ändern können. Ich kann Ihnen die Zahlen nicht geben, aber Sie können anhand der x86-Welt erraten, dass die Dinge selten perfekt laufen.

Hier ist eine Illustration des Layouts einer XOR-Zelle: XOR

Die grünen Balken links / rechts sind Flossen und die roten sind Poly. Der Blues ist das farbige Metall auf Stufe 1.

Kommerzielle CPUs verfügen nicht über einen Autorecovery-Mechanismus, aber im akademischen Bereich und in speziellen Anwendungs-CPUs. Ich habe einige spezialisierte Komponenten hergestellt, die asynchrone Architekturen verwenden, um Taktprobleme zu lösen, die durch schlechte Gates entstehen, obwohl das Oxid eines Lochs als heißer Träger zerstört wird, wobei Sie nur einen wirklich langsamen Transistor erhalten.

b degnan
quelle
3

Anscheinend haben sich die Zeiten geändert. Viele der fünf Jahre alten Antworten in dieser Frage spiegeln nicht mehr den Stand der Technik wider und einige waren damals nicht korrekt.

Transistoren und andere Bauelemente auf Silizium sind nach der Herstellung ziemlich stabil, vorausgesetzt, der IC überhitzt nicht.

In einem modernen IC-Herstellungsprozess werden jetzt folgende Schritte ausgeführt, um Fehler zu minimieren:

  • ICs werden ausführlich getestet, sowohl auf der Ebene der Entwurfsvalidierung und -verifizierung als auch auf der Ebene einzelner Probentests. In diesem Dokument werden einige Testverfahren für den Pentium 4 beschrieben.
  • Das Gesamtdesign von ICs ist jetzt zu komplex, um vollständig überprüft zu werden
  • ICs verfügen über einen programmierbaren Mikrocode, der ein begrenztes Maß an Reprogrammierbarkeit ermöglicht, wenn nach der Herstellung Fehler entdeckt werden
  • Moderne ICs enthalten redundante Siliziumschichten, mit denen während der Herstellung entdeckte Fehler korrigiert werden können
  • Viele CPUs verfügen über redundante Hardwaremodule, unabhängig davon, ob es sich um CPU-Kerne, Cache-Speicher oder andere IP-Adressen handelt. Wenn nicht alle Einheiten funktionsfähig sind, können einige deaktiviert und als kostengünstigere Teile "gruppiert" werden. Ein Beispiel ist, dass der PS4-Mehrkern-IC einen redundanten Kern enthält , der deaktiviert ist, um eine höhere Ausbeute zu erzielen.
  • Einige CPUs arbeiten, jedoch nicht mit Höchstgeschwindigkeit. Diese können als CPUs mit niedrigerer Geschwindigkeit und geringeren Kosten verkauft werden
  • Viele CPUs und RAMs verwenden einen ECC-Speicher (Error Correction Coding) oder führen eine Fehlerkorrektur zur Nachrichtenvalidierung in verschiedenen Phasen der Datenübertragung durch, um die Integrität sicherzustellen
  • Manchmal fallen Prozessoren auf eine Weise aus, die einen Systemabsturz verursacht, aber nicht verhindert, dass das System beim Neustart wieder funktioniert (CMOS-Latchup).

Programmierfehler in der formalen Spezifikation des Prozessors sind wahrscheinlicher als Fehler eines bestimmten Transistors.

Während herkömmliche CPUs nicht über eine automatische Wiederherstellungsfunktion verfügen, wurde auch an selbstrückstellenden CPUs als Gegenmaßnahme für kosmische Strahlung gearbeitet. Kosmische Strahlung kann genug Energie in einer CPU oder einem RAM ablegen, um Bit-Flips zu verursachen.

Wie in den Kommentaren erwähnt, haben sich geschäftskritische Systeme lange Zeit auf mehrere CPUs zur Überprüfung verlassen. Das Space Shuttle aus dem Jahr 1976 verwendete beispielsweise fünf Computer, von denen vier dasselbe Programm ausführten und über alle Flugsteuerungsentscheidungen "abstimmten", um die Sicherheit zu gewährleisten.

jbarlow
quelle
ECC und Fehlererkennung werden seit geraumer Zeit verwendet (für Speicher und Kommunikation, für arithmetische und ähnliche Logikfunktionen haben einige High-End-Systeme seit Jahren eine Fehlererkennung). In ähnlicher Weise wurde die redundante Ausführung (räumlich oder zeitlich) verwendet, um Fehler in Systemen zu erkennen, in denen die Kosten für Hardware / Ausführungszeit gerechtfertigt erscheinen.
Paul A. Clayton
@ PaulA.Clayton Wenn Sie einen Beitrag über Itanium und zuletzt über Xeon RAS-Funktionen verfassen würden, würde ich sicherlich gerne dafür stimmen.
Oleksandr R.
2

Die meisten modernen Prozessortransistoren sind FETs. Diese haben den Vorteil, dass sie bei Beginn einer Überlastung einen Source- / Drain-Widerstand erhalten. Dies ist ein Faktor, der es ermöglicht, Hochleistungs-MOSFETs herzustellen, indem viele parallel geschaltet werden. Die Last verteilt sich automatisch. Dies kann ein Faktor sein, der bei der Verteilung von Problemen hilft. Aber ich denke es ist wirklich einfacher als das.

Wie bei den meisten elektronischen Teilen halten sie eine ganze Weile, wenn Sie sie innerhalb der Spezifikationen fahren. Wenn ein Mikroprozessor hergestellt wird, gibt es zwei Faktoren für die Kosten. Nur der Raum auf dem Silizium und aufgrund der Komplexität die tatsächliche Ausbeute. Nicht alle Chips funktionieren nach der Herstellung. Sobald die Validierung abgeschlossen ist, wissen Sie jedoch, dass die Transistoren gut sind. Wenn sie innerhalb der Spezifikation gefahren werden, besteht die Möglichkeit, dass sie gut bleiben.

Joe
quelle
2

Haben Sie sich jemals gefragt, warum derselbe Chip manchmal mit unterschiedlichen Geschwindigkeiten verkauft wird? Und haben Sie bemerkt, dass manchmal dieselbe GPU-Chip-Architektur mit einer unterschiedlichen Anzahl interner Einheiten verkauft wird?

Es gibt keine Möglichkeit, einen Hardwarefehler auf Siliziumebene zu beheben, aber im Laufe der Zeit haben Designer gelernt, mit dem Problem der Erhöhung der Ausbeute umzugehen . Ohne Voraussicht hängt der Ertrag ausschließlich von der Herstellungsqualität ab. Wenn Sie jedoch klug sind, können Sie einige der schlechten Chips wiederherstellen.

Nehmen wir zum Beispiel an, Sie haben ein 18-Kern-Chip-Design, das mehr oder weniger unabhängig arbeitet. Während des Tests sortieren Sie perfekte Chips und geben sie als A18-Modell frei. Die meisten ausgefallenen Chips haben nur einen Fehler, daher funktionieren sie einwandfrei, solange der fehlerhafte Kern deaktiviert ist. Sie verkaufen diese als A17-Modell zu einem etwas niedrigeren Preis, und diejenigen mit zwei schlechten Kernen werden als A16-Modell zu einem immer niedrigeren Preis verkauft.

Gleiches kann für die Geschwindigkeitsbewertung eines Chips gelten. Perfekt gefertigte Chips können mit Geschwindigkeiten betrieben werden, die über die Konstruktionsspezifikation hinausgehen, Chips mit Problemen jedoch möglicherweise nicht. Diese werden mit niedrigeren Geschwindigkeitsspezifikationen verkauft.

Diese Methode erhöht die Gesamtausbeute dramatisch und wird daher häufig gesehen. Die PlayStation 3 verfügt beispielsweise über 8 SPE-Einheiten in der Hardware, eine ist jedoch immer deaktiviert, um Ertragsprobleme zu berücksichtigen.

Pål-Kristian Engstad
quelle
1

Verfügt die CPU über einen automatischen Wiederherstellungsmechanismus?

Nein wie oben erklärt. Ihre Caches, insbesondere L2 und L3, können jedoch zusätzlichen RAM enthalten. Wenn das Teil im Werk getestet wird, können fehlerhafte RAM-Blöcke entfernt und die zusätzlichen RAM-Blöcke verwendet werden.

Brian Carlton
quelle
1

Im Allgemeinen nein, Sie decken schlechte Transistoren durch einen Chip-Bildschirm ab und erwarten danach einen relativ geringen Prozentsatz an Verlusten. Das Chip-Geschäft gibt es schon seit Jahrzehnten. Sie haben viele Tricks, um dies zu verwalten (und ja, manchmal besteht einer der Tricks darin, nur schlechte Teile herauszulassen und sie kostenlos zu ersetzen oder die Kunden unglücklich zu machen).

Für strahlungsgehärtete Umgebungen (Weltraum) würden Sie wahrscheinlich dreifach abstimmen, jedes "Bit" hat tatsächlich drei Bits, die abstimmen, um eins zu machen. Es sind nur zwei Drittel der Stimmen erforderlich, um die Biteinstellung zu bestimmen. So könnten Transistoren im anderen Drittel schlecht werden und werden schließlich mit der Gesamtdosis. Das Hauptanliegen ist jedoch die Störung einzelner Ereignisse. Diese Chips und Systeme sind für diese Umgebungen von oben nach unten, Silizium, Hardware, Software usw. ausgelegt. Und sie verwenden alte bewährte Technologie, nicht auf dem neuesten Stand, sodass die Anzahl und Größe der Transistoren der Transistoren von vor Jahren stammt.

Es wird erwartet, dass COTS von Zeit zu Zeit Schluckauf hat und fehlschlägt.

Oldtimer
quelle
-1

Es mag wie ein Wunder erscheinen, aber es gibt eine Reihe von Mechanismen, mit denen die Anzahl der Transistorausfälle verringert werden kann. Abhängig von der Art des Ausfalls des Transistors und dem Ort, an dem die CPU unter bestimmten Bedingungen manchmal noch verwendet werden kann oder nicht.

Gegenwärtig ist häufig kein automatischer Wiederherstellungsmechanismus eingebaut, aber es wird viel über rekonfigurierbares Rechnen, Redundanz und andere Techniken geforscht, um dieses Problem zu minimieren.

Sybreon
quelle