Kann nachgewiesen werden, dass der Betrieb einer GPU bei hohen Temperaturen schlecht für die Karte ist?

11

Wenn Sie Ihre Grafikkarte kontinuierlich zwischen 80 ° C und 90 ° C betreiben, ist dies tatsächlich schlecht für die Grafikkarte? Dh verkürzt es die Lebensdauer der Karte? Kann das bewiesen werden? Oder sind es nur Annahmen?

Ich verstehe, dass die Sicherheitsabschaltung für GPUs normalerweise 90 ° C (194 ° F) beträgt.

Daniel
quelle
Die Sicherheitsabschaltung hängt stark davon ab, wo die Temperatur gemessen wird und mit welchem ​​Prozess und welcher Maximaltemperatur der Stromkreis ausgelegt wurde. Ich erinnere mich, dass eine bestimmte Generation von Intel-CPUs vor einiger Zeit eine maximale Nenntemperatur von 110 ° C hatte, was bestimmte Hardware-Enthusiasten beunruhigte, weil sie dachten, die Chips würden sich selbst zerstören. Spoiler: Das haben sie nicht.
Joren Vaes
1
Ich denke, diese Frage hängt stark mit dieser anderen Frage zusammen: IC-Produktlebensdauer als Funktion der Sperrschichttemperatur . Fazit dieser Frage ist, dass alle 15 ° C über Raumtemperatur die Lebenserwartung eines IC halbiert. Wenn Sie also eine Grafikkarte bei 90 ° C im Vergleich zu 80 ° C betreiben, verkürzt sich ihre Lebensdauer um ~ 37% (wenn die Lebenserwartung bei 80 ° C 8 Jahre beträgt, beträgt sie bei 90 ° C stattdessen ~ 5 Jahre)
Harry Svensson,
1
Das Arhennius-Gesetz liegt näher an einem um 50% niedrigeren MTBF / 10'C-Anstieg, aber es gibt andere Faktoren, die für Dielektrika berücksichtigt werden müssen, wenn sie mit einem viel niedrigeren MTBF beginnen, wie 1000 h bei 85h oder 105h, also vermute ich, dass sie 105'C-bewertete Kappen oder verwenden besser.
Tony Stewart Sunnyskyguy EE75

Antworten:

21

Lassen Sie uns die Versagensmechanismen untersuchen und sehen, wie sie durch Hitze beeinflusst werden. Es ist sehr wichtig, sich daran zu erinnern, dass die GPU nicht unbedingt schneller ausfällt, nur weil ein Fehlermechanismus mit der Temperatur schneller auftritt! Wenn eine Unterkomponente, die 100 Jahre bei Raumtemperatur hält, nur 20 Jahre hält, wenn sie heiß ist, aber eine andere Unterkomponente zunächst nur 1 Jahr dauert (aber nicht von Hitze beeinflusst wird), ändert sich die Lebensdauer Ihres Produkts kaum mit Temperatur.

Ich werde das von Simeon angesprochene Radsportproblem ignorieren, da dies nicht mein Fachwissen ist.

Auf der Platinenebene kann ich mir eine Hauptkomponente vorstellen, die mit dem Kopf „bricht“: Elektrolytkondensatoren. Diese Kondensatoren trocknen aus, und es versteht sich, dass sie bei Wärmeeinwirkung schneller austrocknen. (Tantalkondensatoren haben tendenziell auch eine kürzere Lebensdauer, aber ich weiß nicht, wie sich dies mit der Hitze ändert).

Aber was ist mit dem Silizium?

Soweit ich weiß, gibt es hier einige Dinge, die zum Scheitern führen können. Eine der wichtigsten ist hier die Elektromigration. In einem Schaltkreis bewegen sich die Elektronen, die durch Metallteile gehen, tatsächlich physikalisch um Atome. Dies kann so schlimm werden, dass es zu Lücken in den Leitern kommt, die dann zum Ausfall führen können.

Dieses Bild gibt eine gute Illustration (von Tatiana Kozlova, Henny W. Zandbergen; In-situ-TEM-Beobachtung der Elektromigration in Ni-Nanobrücken):

Geben Sie hier die Bildbeschreibung ein

Dieser Prozess nimmt exponentiell mit der Temperatur zu, und daher hält der Chip in der Tat weniger lange, wenn die Temperatur höher ist und die Elektromigration die Hauptursache für das Versagen ist.

Ein weiterer Mechanismus ist der Oxiddurchschlag, bei dem die Transistoren innerhalb der Schaltung einen Gate-Punch-Through erleiden. Dies ist auch temperaturabhängig. Die Spannung hat hier jedoch einen viel größeren Einfluss.

Es gibt auch eine VT-Verschiebung, entweder aufgrund der Drift von Dotierstoffen oder aufgrund der Heißträgerinjektion. Die Dotierstoffdrift nimmt mit der Temperatur zu (es ist jedoch unwahrscheinlich, dass dies ein Problem darstellt, insbesondere bei digitalen Schaltkreisen, da dies ein sehr langsamer Prozess ist). Ich bin mir nicht sicher über die Temperaturabhängigkeit der Heißträgerinjektion, aber ich denke wieder, dass die Spannung hier ein viel wichtigerer Faktor ist.

Aber dann gibt es eine wichtige Frage: Um wie viel verkürzt sich die Lebensdauer? Wenn Sie dies wissen, sollten Sie sicherstellen, dass Ihre Grafikkarte die ganze Zeit kühl bleibt? Meine Vermutung ist nein, es sei denn, in der Entwurfsphase wurde ein Fehler gemacht. Schaltungen wurden unter Berücksichtigung dieser Worst-Case-Situationen entwickelt und so konstruiert, dass sie überleben, wenn sie an die Grenzen der Nennlebensdauer des Herstellers gebracht werden. Bei Personen, die Schaltkreise übertakten: Der Spannungsanstieg, den sie häufig verwenden, um den Schaltkreis stabil zu halten (da er die Schaltkreise etwas beschleunigen kann), schadet weitaus mehr als die Temperatur selbst. Darüber hinaus führt dieser Spannungsanstieg zu einem Stromanstieg, was die Elektromigrationsprobleme erheblich beschleunigt.

Joren Vaes
quelle
2
Das sind einige fantastische Bilder, ich habe mich immer gefragt, wie Elektromigration physisch aussehen würde.
Cursorkeys
9

Ja, es ist erwiesen, dass Wärme elektrische Komponenten verschlechtert. Metalle dehnen sich beim Erhitzen aus. Lot (wird für Stromkreisverbindungen verwendet) ist eine Metalllegierung, die sich beim Erhitzen ausdehnt. Durch ständiges Erwärmen und Abkühlen dehnen sich die Fugen ständig aus und ziehen sich zusammen, was zu Rissen und schließlich zum Versagen der Fugen führen kann.

                                                      Diagramm der Ausfallrate gegen die Temperatur

Die obige Grafik zeigt, wie Arrhenius'Law eine Korrelation zwischen einem Anstieg der Wärme und einem Halbleiterausfall ergibt. In diesem Artikel werden die Auswirkungen von Wärme auf elektronische Komponenten beschrieben. Es geht mehr um Dinge auf Elektronenebene, die etwas außerhalb meines Wissensbereichs liegen

Simeon R.
quelle
1
Ich kann glauben, dass Radfahren schlecht ist, weil Sie sich ausdehnen und zusammenziehen. Aber gibt es ein Problem damit, ständig mit hoher Last und damit hoher Temperatur zu laufen ?
Colin
Ich bin ein IC-Designer, daher habe ich wenig Wissen über Fehlermodi auf Platinenebene, aber in all meiner Zeit, in der ich Dinge repariere (als Hobby), bin ich noch nicht auf einen Fehler aufgrund von Expansionszyklen gestoßen, daher muss ich mich fragen, wie wichtig er ist es wird mit anderen Mechanismen verglichen.
Joren Vaes
1
@Colin keine "hohe Last die ganze Zeit"; Wenn Sie nicht nur Bitcoin auf Ihrer GPU abbauen, gibt es Sekunden, in denen mehr Last als in anderen vorhanden ist. Da die Kühlung auf GPUs ziemlich stark sein muss, führt dies bereits zu den genannten Problemen. Siehe: XBox-Ring des Todes.
Marcus Müller
@ MarcusMüller gibt es absolut. Und es spielt keine Rolle, dass die Last nicht absolut konstant ist. Für das Radfahren ist die Delta-Temperatur wichtig. Eine Karte, die 99% der Zeit mit einer Last von 95-100% (dh Rechenleistung) innerhalb der vorgesehenen Temperaturen ausgeführt wird, ist weitaus weniger anfällig für den hypothetischen Fahrradschaden als dieselbe Karte, die zwischen 0% und 100% wild schwankt das wenn (dh Spiele).
Dan M.
6

Die Beziehung zwischen dem Anstieg der Sperrschichttemperatur eines Halbleiters und der Verringerung seiner MTBF (Mean Time Between Failure) ist gut bekannt.

Dieser technische Hinweis von Micron spricht darüber

In der Praxis steigt die Ausfallrate exponentiell an, sobald sich die Sperrschichttemperatur ~ 125 ° C nähert und diese überschreitet. Wenn Sie also deutlich unter dieser Temperatur arbeiten, sind kleine Schritte möglicherweise nicht so kritisch.

Joribama
quelle