Ist es auf einem Server mit zwei CPUs normal, dass eine CPU heißer als die andere ist?

51

Ich habe einen doppelten Opteron-Server, auf dem Linux mit libvirt ausgeführt wird, um mehrere VMs zu hosten. Die VMs funktionieren einwandfrei, und der Server wird ordnungsgemäß verarbeitet. Ich stelle jedoch fest, dass eine CPU immer bei 69 ° C läuft (Drosselung bei 70 ° C) und die andere bei 15 ° C.

Das scheint mir nicht normal zu sein? Sollten sie nicht beide ein bisschen wärmer sein?

Ich bin nicht sicher, wie ich weiter dianosieren soll. Vielleicht ist nicht genug Wärmeleitpaste auf einer der CPUs?

Edit: Das Motherboard ist ASUS KGPE-D16 und wird von zwei Noctua NH-U9DO-Lüftern gekühlt .

Beachten Sie, dass die Temperaturen möglicherweise über der Umgebungstemperatur liegen und nicht die absoluten Werte? Wenn der Server im Leerlauf ist, sinken die CPU-Temperaturen auf 2 ° C und 13 ° C. Ich verwende die lmsensors Konfiguration von hier

samoz
quelle
1
Was ist die Marke / das Modell des Servers?
Ewwhite
2
Wie ist die Verteilung der CPU-Last? mpstat -P ALL 1auf Linux wird helfen
Christopher Perrin
3
klingt nach kaputtem temperatursensor
matcheek
14
15C ist sehr wahrscheinlich ein gebrochener Zensor ....
Reaces
Scheint, als wäre der Sensor defekt oder schlecht kalibriert. Wenn Sie den Server neu starten können, sehen Sie sich das BIOS an, das die korrekten Werte anzeigen sollte.

Antworten:

106

Das Problem war ein schlecht sitzender Kühlkörper. Vielleicht ist schlecht fit nicht die richtige Beschreibung. Es stellt sich heraus, dass Sie Wärmeleitpaste auf den Kühlkörper auftragen müssen, nicht die Plastikabdeckung, die über den Kühlkörper läuft.

Bildbeschreibung hier eingeben

Nach dem Entfernen der Plastikabdeckung ist die CPU nett und cool, danke an alle!

samoz
quelle
51
+1, nur weil es lustig ist
HBruijn
9
Sie meinen, jemand hat die Plastikabdeckung an Ort und Stelle gelassen und dann Paste darauf und dann den Kühlkörper darauf gelegt? Epos.
TomTom
4
Baaaaaahaaahaaahahahaa !!
Craig
8
Ich finde es toll, wie Sie die Allgemeinen Geschäftsbedingungen, die eingeschränkte Garantie und die Rückgabebedingungen im Hintergrund sehen können. :)
Leichtigkeit Rennen mit Monica
6
Wenn Sie sich dadurch weniger dumm fühlen (und das wird auch nicht so sein), habe ich mit meiner neuen Bürokaffeemaschine Ähnliches gemacht. Der Kaffee war zu kalt zum Trinken und ich packte ihn wieder ein, um ihn wieder in den Laden zu bringen, bevor eine Schutzpappe vom Heizelement fiel :)
Martin James
25

Nach meiner Erfahrung ist es normal, dass gepaarte Komponenten in einem Gehäuse bei unterschiedlichen Temperaturen betrieben werden, da der Luftstrom nicht überall gleich ist. Hier ist ein Diagramm der HDD-Temperatur aus meiner Colo-Box. Die Laufwerke sind gespiegelt, sodass die Arbeitslast nahezu identisch ist.

Munin Grafik der Festplatten-Temperaturen im vergangenen Jahr

Wie Sie sehen können, verfolgen sie sich gegenseitig, aber sie sind nicht gleich. Sie sind auch im Durchschnitt nur 6C auseinander. Unabhängig davon, ob Ihre Sensoren Absoluttemperatur oder Übertemperatur anzeigen, scheint eine Differenz von 55 ° C unter Last sehr falsch zu sein. Wenn Sie sicher sind, dass die Daten korrekt sind, würde ich einen schlecht eingebauten Kühlkörper vermuten, wenn die Differenz im Ruhezustand auf 10 ° C sinkt. Dies ist die Art von Unterschied, die ich aufgrund des Luftstroms sehe.

MadHatter
quelle
1
Mit mpstat (von Christopher Perrin, danke!) Habe ich bestätigt, dass die Last ziemlich gleichmäßig verteilt ist. Bei + 3 ° C und + 20 ° C läuft gerade der Leerlauf. Ich werde versuchen, am Kühlkörper herumzuspielen, um festzustellen, ob er locker ist. Glauben Sie, dass es sich um ein Wärmeleitpastenproblem handeln könnte?
Samoz
Das ist sehr gut möglich (und erst recht, nachdem Sie damit angefangen haben).
MadHatter
8

Es ist nicht. Es sei denn, Sie haben ernsthafte Probleme mit dem Luftstrom. Oder einer der Kühler ist schlecht. Die Temperatur wird variieren - aber nicht so stark (70 gegen 15 Grad Celsius).

Angesichts der niedrigen 15 Grad würde ich annehmen, dass (a) Ihr Sensor ausgeschaltet ist (Sie lagern den Server wirklich in einem so kühlen Raum?).

Ich würde auch annehmen, dass eine der CPUs einfach überhaupt keine Arbeit macht, aus welchem ​​Grund auch immer.

Kleine Unterschiede sind normal. Einige kleine größere können sein (Luftstrom kommt mir in den Sinn). aber hier reden wir über eine, die kalt ist.

TomTom
quelle
2

Dies kann entweder eine Abkühlung oder eine ungleichmäßige Belastung sein (angesichts des Temperaturunterschieds ist Ihre Situation wahrscheinlich eine ungleichmäßige Belastung). Sie sollten so etwas wie prime95 verwenden, um alle Kerne gleichmäßig zu laden und festzustellen, ob die Temperaturen noch variieren. Wenn dies nicht der Fall ist, müssen Sie die VMs ausgleichen, und prüfen Sie, ob Ihre Apps Multithread-fähig und ausgelastet sind. Wie das geht, hängt von Ihrer Software und der individuellen Arbeitsbelastung ab und liegt daher wirklich außerhalb des Rahmens der Frage. Denken Sie daran, dass dies keinen wirklichen Vorteil bietet, wenn Sie nicht über genügend Last verfügen, um eine einzelne CPU / einen Kern aufzustocken. Tatsächlich kann Ihre VM absichtlich die Verwendung einer zweiten CPU vermeiden, sodass sie auf mehreren Rechnern in den Energiesparmodus wechseln kann -CPU-Systeme.

Wenn Sie es auf Abkühlen eingegrenzt haben. Ein kleiner Unterschied von bis zu 10 ° C kann zu wenig (oder zu viel!) Wärmeleitpaste sein. Ein größerer Unterschied deutet auf ein signifikantes Problem oder einen Unterschied zwischen CPU-Kühlern hin. Möglicherweise wurde der Luftstrom blockiert, ein Kühlkörper wurde gelöst usw.

JamesRyan
quelle
0

Ich müsste mich mit einer defekten Temperatur einverstanden erklären. Sensor, da 15C nur 59F ist !!! Wenn sich der Computer nicht in einem extrem kalten Rechenzentrum befindet, könnte ich mir vorstellen, dass die Umgebungslufttemperatur höher als 59F ist! Sie versuchen, die VMs dem Niedertemperaturkern zuzuweisen und festzustellen, ob Änderungen vorliegen. Wenn nicht, würde ich den Sensor als fehlerhaft erachten.

Möglicherweise möchten Sie auch die Ausgabe von dmesg(boot messages) überprüfen und feststellen, ob dort etwas Ungewöhnliches vorliegt.

J. Simons
quelle