Das System stürzt ab, ist jedoch über SSH zugänglich

7

Ich habe über einen längeren Zeitraum ein Python-Skript ausgeführt, das auf dem pyCUDA-Modul basiert.

Bei zwei Gelegenheiten ist der Desktop gesperrt und reagiert nicht mehr, außer seltsamerweise über SSH. Die Remote-Anmeldung zeigt, dass das Python-Skript nicht mehr ausgeführt wird, wenn das System (lokal) gesperrt ist. Da dieses Python-Skript schon lange ausgeführt wird, habe ich nicht gesehen, wann genau es abstürzt. Es wurde nie gesperrt, ohne dass das Skript ausgeführt wurde.

Ausführen von 12.04 mit einer GeForce 460-GPU. Das Python-Skript führt keinen einzigen CUDA-Aufruf durch, der länger als eine Stunde dauert, sondern Hunderte, die weniger als 30 Sekunden dauern. Ich glaube also nicht, dass die GPU das System blockiert. Vielen Dank für alle Ideen.

Peter Becich
quelle
1
Sie können das dmesgSystemprotokoll auf Fehler überprüfen
Savvas Radevic
1
GUI gesperrt, aber Kernel und Netzwerk funktionieren korrekt ... es sieht wirklich so aus, als würde eine GPU hängen bleiben.
Javier Rivera
Ich denke X hängt. Sehen Sie sich die Protokolle von X und Syslog an und veröffentlichen Sie diese Informationen, falls dies erneut geschieht.
Gertvdijk
Sie haben erwähnt, dass das Skript bei der Anmeldung über SSH nicht mehr ausgeführt wird. Liegt es daran, dass es beendet wurde oder abgestürzt ist?
Marcin Kaminski

Antworten:

2

Sie haben erwähnt, dass das Skript bei der Anmeldung über SSH nicht mehr ausgeführt wird. Liegt es daran, dass es beendet wurde oder abgestürzt ist?

Sie können Ihr Skript auch mit strace ausführen. Auf diese Weise können Sie jeden Systemaufruf erfassen, der ausgeführt wird, insbesondere was er tut, wenn er beendet wird / abstürzt.

strace -f /path/script.py -o /tmp/output.log

Es wird eine ziemlich große Datei erstellt, stellen Sie also sicher, dass Sie genügend freien Speicherplatz haben.

Marcin Kaminski
quelle
2

Einige Ideen und Tipps zum Debuggen:

  • Wenn Sie sich über SSH anmelden, ist das System inaktiv oder hängt ein Prozess mit hoher Last?
  • Was bedeutet "völlig unempfindlich"? Können Sie immer noch zu einem virtuellen Terminal gelangen, das Strg-Alt-F1 drückt? Schaltet das Drücken von CapsLock die Status-LED auf der Tastatur ein / aus?
  • Obwohl Ihr Skript die GPU möglicherweise nicht für längere Zeit verwendet, wie viel maximalen GPU-Speicher verbraucht es?
  • Verhindert das Stoppen des X-Servers und das Ausführen des Skripts von einem virtuellen Terminal aus die Sperrung?
kynan
quelle