Ich habe über einen längeren Zeitraum ein Python-Skript ausgeführt, das auf dem pyCUDA-Modul basiert.
Bei zwei Gelegenheiten ist der Desktop gesperrt und reagiert nicht mehr, außer seltsamerweise über SSH. Die Remote-Anmeldung zeigt, dass das Python-Skript nicht mehr ausgeführt wird, wenn das System (lokal) gesperrt ist. Da dieses Python-Skript schon lange ausgeführt wird, habe ich nicht gesehen, wann genau es abstürzt. Es wurde nie gesperrt, ohne dass das Skript ausgeführt wurde.
Ausführen von 12.04 mit einer GeForce 460-GPU. Das Python-Skript führt keinen einzigen CUDA-Aufruf durch, der länger als eine Stunde dauert, sondern Hunderte, die weniger als 30 Sekunden dauern. Ich glaube also nicht, dass die GPU das System blockiert. Vielen Dank für alle Ideen.
dmesg
Systemprotokoll auf Fehler überprüfenAntworten:
Sie haben erwähnt, dass das Skript bei der Anmeldung über SSH nicht mehr ausgeführt wird. Liegt es daran, dass es beendet wurde oder abgestürzt ist?
Sie können Ihr Skript auch mit strace ausführen. Auf diese Weise können Sie jeden Systemaufruf erfassen, der ausgeführt wird, insbesondere was er tut, wenn er beendet wird / abstürzt.
Es wird eine ziemlich große Datei erstellt, stellen Sie also sicher, dass Sie genügend freien Speicherplatz haben.
quelle
Einige Ideen und Tipps zum Debuggen:
quelle