Warum funktionieren Chips bei Überhitzung überhaupt nicht mehr?

26

Sobald ein Chip überhitzt, kann es zu Fehlfunktionen kommen. Beispielsweise können viele Programme fehlschlagen, wenn einige oder alle Teile eines Computers überhitzt sind.

Was genau passiert, dass Chips bei Überhitzung versagen?

scharfer Zahn
quelle

Antworten:

26

Andere Antworten erweitern.

  1. Höhere Leckströme: Dies kann zu Problemen mit der Erwärmung führen und leicht zu einem thermischen Durchgehen führen.
  2. Das Signal-Rausch-Verhältnis nimmt mit zunehmendem thermischen Rauschen ab : Dies kann zu einer höheren Bitfehlerrate führen, was dazu führt, dass ein Programm falsch gelesen und Befehle falsch interpretiert werden. Dies kann eine "zufällige" Operation verursachen.
  3. Dotierstoffe werden durch Hitze beweglicher. Wenn Sie einen vollständig überhitzten Chip haben, kann der Transistor aufhören, Transistoren zu sein. Das ist irreversibel.
  4. Durch ungleichmäßiges Erhitzen kann die kristalline Struktur von Si zerstört werden. Ein normaler Mensch kann es erleben, wenn er Glas einem Temperaturschock aussetzt. Es wird zerbrechen, ein bisschen extrem, aber es veranschaulicht den Punkt. Das ist irreversibel.
  5. ROM-Speicher, die von einer geladenen, isolierten Platte abhängen, können mit zunehmender Temperatur Speicher verlieren. Wenn die Wärmeenergie hoch genug ist, kann die Elektronik aus dem geladenen Leiter entweichen. Dies kann den Programmspeicher beschädigen. Dies passiert mir regelmäßig beim Löten von ICs, die bereits programmiert sind, wenn jemand den Chip überhitzt.
  6. Verlust der Transistorsteuerung: Mit genügend Wärmeenergie können Ihre Elektronen die Bandlücke überspringen. Ein Halbleiter ist ein Material mit einer kleinen Bandlücke, so dass er leicht mit Dotierstoffen überbrückt werden kann, aber groß genug ist, dass die erforderliche Betriebstemperatur ihn nicht in einen Leiter verwandelt, dessen Lücke kleiner ist als die Wärmeenergie des Materials. Dies ist eine übermäßige Vereinfachung und die Grundlage für einen weiteren Beitrag, aber ich wollte ihn hinzufügen und in meine eigenen Worte fassen.

Es gibt noch mehr Gründe, aber diese machen ein paar wichtige aus.

Kortuk
quelle
Es ist wahrscheinlich, dass Timing-Fehler einer der "weiteren Gründe" sind (der Drahtwiderstand steigt tendenziell mit der Temperatur an, so dass Zeitpfade mit begrenzter Widerstandskapazität möglicherweise ihre garantierte Worst-Case-Zeit verletzen). Natürlich verliert DRAM bei höheren Temperaturen auch schneller Ladung (wie Flash-Speicher); ohne eine Kompensation der Bildwiederholfrequenz können Daten verloren gehen.
Paul A. Clayton
13

Das Hauptproblem beim IC-Betrieb bei hohen Temperaturen ist der stark erhöhte Leckstrom einzelner Transistoren. Der Leckstrom kann so stark ansteigen, dass die Schaltspannungspegel der Geräte beeinträchtigt werden, sodass sich die Signale im Chip nicht ordnungsgemäß ausbreiten können und nicht mehr funktionieren. Sie erholen sich normalerweise, wenn man sie abkühlen lässt, aber das ist nicht immer der Fall.

Bei Herstellungsprozessen für den Hochtemperaturbetrieb (bis zu 300 ° C) wird die Silizium-auf-Isolator-CMOS-Technologie verwendet, da über einen sehr weiten Temperaturbereich nur geringe Leckströme auftreten.

Leon Heller
quelle
9

Nur eine Ergänzung zu einigen ausgezeichneten Antworten: Technisch gesehen sind es nicht die Dotierstoffe, die mobiler werden, sondern eine Zunahme der intrinsischen Trägerkonzentration. Wenn irgendetwas die Dotierstoffe / Ladungsträger weniger beweglich werden, während das Siliziumkristallgitter aufgrund der zunehmenden Wärmeenergie zu "vibrieren" beginnt, was es für die Elektronen und Löcher schwieriger macht, durch die Vorrichtung zu fließen - optische Phononenstreuung Ich glaube, die Physiker nennen es das, aber ich kann es falsch liegen.

Wenn die intrinsische Ladungsträgerkonzentration über das Dotierungsniveau hinaus ansteigt, verlieren Sie die elektrische Kontrolle über das Gerät. Intrinsische Ladungsträger sind diejenigen, die vorhanden sind, bevor wir das Silizium dotieren. Die Idee von Halbleitern ist, dass wir unsere eigenen Ladungsträger hinzufügen, um pn-Übergänge zu erzeugen, und die anderen interessanten Dinge, die Transistoren tun. Silizium übersteigt eine Temperatur von etwa 150 Grad Celsius, daher ist die Wärmeableitung von Hochfrequenz- und Hochgeschwindigkeitsprozessoren sehr wichtig, da es in der Praxis nicht allzu schwierig ist, 150 Grad Celsius zu erreichen. Es besteht ein direkter Zusammenhang zwischen der intrinsischen Ladungsträgerkonzentration und dem Leckstrom eines Geräts.

Wie die anderen Jungs gezeigt haben, ist dies nur einer der Gründe, warum Chips versagen - es kann sogar zu etwas so Einfachem kommen, wie dass ein Drahtbond zu heiß wird und von seinem Pad abplatzt. Es gibt eine riesige Liste von Dingen.

SimonBarker
quelle
Wenn ich sage, dass die Dotierstoffe beweglicher werden, meine ich die physikalischen Atome, nicht die Träger. Der PN-Übergang kann mit der Zeit und der Hitze driften und aufhören, eine Diode zu sein. Zweitens, wenn Sie eine ausreichend hohe Temperatur erhalten, kann Ihre Wärmeenergie, die sowohl energiereiche Phononen erzeugt, die mit den Elektronen interagieren, als auch viel höhere IR-Niveaus innerhalb der Struktur Elektronen mit ausreichend hoher Energie versorgen, um die Bandlücke zwischen Leitfähigkeits- und Valenzschichten zu überspringen . Das Si übersteigt, weil seine Bandlücke so groß ist, dass 150 Grad Celsius den Elektronen die Fähigkeit geben, zu springen.
Kortuk
Ja, ich denke, wir sagen dasselbe, nur von einem anderen Ausgangspunkt aus.
SimonBarker
1
Die Art und Weise, wie Sie das erklären, klingt genau so, wie ich es nach der Einnahme von Gerätephysik, nach der Einnahme von Quantum- und Solid-State-Geräten getan hätte. Ich sage es ein wenig anders, aber wir beide wissen, wie stark diese Erklärungen vereinfacht sind. Ich habe meiner Antwort etwas über diesen Effekt hinzugefügt, da ich denke, dass es sehr wichtig ist, dass ich dir deine ersten +1 gegeben habe, die du verdient hast. Dies ist ein wichtiger Effekt, da es sehr schnell zu einem thermischen Durchgehen kommt.
Kortuk
8

Obwohl die Leckströme zunehmen, würde ich bei vielen MOS-basierten Geräten ein größeres Problem erwarten, dass die durch einen MOS-Transistor im "Ein" -Zustand fließende Strommenge abnimmt, wenn das Gerät heiß wird. Damit ein Gerät richtig funktioniert, muss ein Transistor, der einen Knoten schaltet, in der Lage sein, latente Kapazitäten in diesem Teil der Schaltung zu laden oder zu entladen, bevor irgendetwas anderes davon abhängt, dass dieser Knoten geschaltet wurde. Durch Verringern der Stromdurchlässigkeit von Transistoren wird die Rate verringert, mit der sie Knoten laden oder entladen können. Wenn ein Transistor nicht in der Lage ist, einen Knoten ausreichend zu laden oder zu entladen, bevor sich ein anderer Teil der Schaltung darauf verlässt, dass dieser Knoten geschaltet wurde, funktioniert die Schaltung nicht richtig.

Es ist zu beachten, dass bei NMOS-Bauelementen ein Design-Kompromiss bei der Dimensionierung passiver Pull-up-Transistoren auftrat. Je größer ein passiver Pull-up ist, desto schneller kann der Knoten von niedrig auf hoch umschalten. Je niedriger der Knoten ist, desto mehr Energie wird jedoch verschwendet. Viele dieser Geräte wurden daher in der Nähe der Betriebsgrenze betrieben, und hitzebedingte Funktionsstörungen waren (und sind für alte Elektronikgeräte nach wie vor) weit verbreitet. Bei gängiger CMOS-Elektronik sind solche Probleme im Allgemeinen weniger schwerwiegend. Ich habe keine Ahnung, inwieweit sie in Sachen Multi-GHZ-Prozessoren eine Rolle spielen.

Superkatze
quelle
2
Dies ist ein sehr wichtiger Effekt. Ich wollte Kortuk bitten, ihn zu seiner Antwort hinzuzufügen. Einer der Faktoren hinter der maximalen Tj-Spezifikation für einen Prozessor ist, dass der Prozessor oberhalb dieser Tj möglicherweise nicht mit der Nenngeschwindigkeit arbeitet. Dies ist auch der Grund, warum eine bessere Kühlung beim Übertakten hilft.
Andy
Der erste Absatz ist der Grund, warum Ihr Computer nicht mehr funktioniert, wenn es heiß wird - er verlangsamt sich zu sehr, um mit der Taktfrequenz Schritt zu halten.
W5VO
Tatsächlich gibt es einen weiteren Faktor, der möglicherweise bei NMOS-Geräten eine Rolle gespielt hat, obwohl ich ihn bei den meisten typischen Designs nicht erwartet hätte: Viele NMOS-Geräte hatten minimale Taktraten, die durch die Anforderung bedingt waren, die Daten in dynamischen Speicherknoten zu verwenden oder zu aktualisieren bevor es durch Auslaufen abgelassen wurde. Wenn sich die Leckströme mit der Temperatur erhöhen, erhöht sich auch die minimale Taktrate. Ich vermute, dass die meisten Geräte ausreichend über der minimalen Taktrate betrieben wurden, so dass eine Erhöhung der minimalen Geschwindigkeit kein Problem darstellt, bin mir aber nicht sicher.
Supercat
@Andy, @W5VO, ich habe gestern Abend meine Antwort geschrieben und diese Mitte vergessen. Nachtschicht schadet Ihrem Gehirn.
Kortuk
2

Um die bestehenden Antworten zu ergänzen, reagieren die heutigen Schaltkreise empfindlich auf die folgenden zwei Alterungseffekte (nicht nur diese, sondern sie sind auch die wichtigsten bei Prozessen <150 nm):

Da die Temperatur die Mobilität der Träger erhöht, erhöht sie die HCI- und NBTI-Effekte, aber die Temperatur ist nicht die Hauptursache für NBTI und HCI:

  • HCI wird durch eine hohe Frequenz verursacht
  • NBTI durch eine hohe Spannung

Diese beiden Siliziumalterungseffekte verursachen sowohl reversible als auch irreversible Schäden an den Transistoren (durch Beeinträchtigung / Verschlechterung der Isolatorsubstrate), die die Transistorspannungsschwelle (Vt) erhöhen. Infolgedessen benötigt das Teil eine höhere Spannung, um das gleiche Leistungsniveau aufrechtzuerhalten, was eine Erhöhung der Betriebstemperatur impliziert, und wie an anderen Stellen erwähnt, wird eine erhöhte Transistor-Gate-Leckage folgen.

Zusammenfassend lässt sich sagen, dass die Temperatur das Alter des Teils nicht wirklich beschleunigt. Es sind höhere Frequenzen und Spannungen (dh Übertakten), die das Alter des Teils beschleunigen. Die Alterung der Transistoren erfordert jedoch eine höhere Betriebsspannung, wodurch sich das Teil stärker erwärmt.

Korolar: Die Folge des Übertaktens ist ein Anstieg der Temperatur und der erforderlichen Spannung.

Eric
quelle
1

Der allgemeine Grund für das irreversible Versagen von ICs liegt darin, dass das Aluminiummetall, das zum Herstellen von Verbindungen zwischen den verschiedenen Elementen verwendet wird, die Geräte schmilzt und öffnet oder kurzschließt.

Ja, Leckströme nehmen zu, aber im Allgemeinen ist es nicht der Leckstrom selbst, der ein Problem darstellt, sondern die dadurch verursachte Wärme und die daraus resultierende Beschädigung des Metalls im IC.

Stromkreise (z. B. Netzteile, Hochstromtreiber usw.) können beschädigt werden, da bei hohen Spannungen, wenn die Transistortreiber schnell abschalten, interne Ströme erzeugt werden, die ein Einrasten des Geräts verursachen, oder eine ungleichmäßige Stromverteilung im Inneren, die lokale Störungen verursacht Erwärmung und anschließender Metallbruch.

Eine große Anzahl (1000) von wiederholten thermischen Zyklen kann aufgrund von Fehlanpassungen zwischen der mechanischen Ausdehnung des IC und der Baugruppe zu einem Ausfall führen, was schließlich zum Abreißen von Bonddrähten oder zur Begrenzung des Kunststoffgehäusematerials und zu einem nachfolgenden mechanischen Ausfall führen kann.

Natürlich wird eine große Anzahl von IC-Parameterspezifikationen nur über einen bestimmten Temperaturbereich spezifiziert, und diese dürfen nicht außerhalb dieser Spezifikation liegen. Je nach Ausführung kann dies zu Fehlern oder inakzeptablen Parameterverschiebungen führen (während sich der IC außerhalb des Temperaturbereichs befindet) - dies kann bei extrem hohen oder niedrigen Temperaturen auftreten.

jp314
quelle
Aluminium schmilzt bei 660 ° C (1220 ° F). ICs sterben lange bevor diese Temperatur erreicht ist.
Dmitry Grigoryev
Grundsätzlich nein. Bei Temperaturen darunter kann es mit Sicherheit zu unerwünschtem elektrischem Verhalten kommen. Übermäßige Erwärmung und thermisches Durchgehen, aber dies führt nicht zu einem dauerhaften Ausfall, bis ein Teil des Stromkreises eine Temperatur erreicht, bei der das Al (oder ein anderes Metall) in das Silizium diffundiert. Dieser (eutektische Punkt) liegt bei ca. 500-600 ° C. Die meisten anderen Fehler können behoben werden. Zusätzliche Fehler können durch elektrische Fehlfunktionen verursacht werden, die das Anlegen einer übermäßigen Spannung an die Transistorgates oder Thermozyklen ermöglichen (die zu mechanischen Fehlern führen).
jp314
Ich habe immer noch meine Zweifel. Zum Beispiel geben ICs normalerweise eine maximale Löttemperatur um 300 ° C vor. Es scheint also ausreichend zu sein, diese Grenze zu überschreiten, um dauerhaften Schaden zu verursachen.
Dmitry Grigoryev