Ich deaktiviere den ECC-Speicherschutz auf einem NVIDIA K20m (Gerät 0 in meinem Knoten) vorübergehend und kann ihn jetzt nicht wieder zum Laufen bringen. Davor funktionierte es ordnungsgemäß mit aktiviertem ECC. Also, hier ist, was ich getan habe: Ich habe ECC mit deaktiviert
nvidia-smi -i 0 --ecc-config=0
und neu gestartet. Als es erschien, zeigte es eine 100% ige GPU-Auslastung und startete keinen Kernel (es schlug tatsächlich bereits beim Erstellen des Kontexts fehl). Der Grund war ein Doppelbitfehler. Ich habe es mit zurückgesetzt
nvidia-smi -i 0 --reset-ecc-errors=0
und den Knoten neu gestartet. Nach dem Neustart lag die Geräteauslastung bei 0% und ich konnte wie gewohnt Jobs starten. Einige Stunden später zeigte das Gerät wieder eine 100% ige GPU-Auslastung. Diesmal wurde kein Doppelbitfehler gemeldet (nicht einmal ein Einzelbitfehler). Da ich jedoch keinen Job ausführen konnte, habe ich den Knoten neu gestartet und eine 100% ige GPU-Auslastung erzielt. Ich kann ihn nicht verwenden, meldet jedoch keine Bitfehler. Was ist los damit?
GPU 0000:02:00.0
Product Name : Tesla K20m
Display Mode : Disabled
Persistence Mode : Enabled
Driver Model
Current : N/A
Pending : N/A
Serial Number : 0324512044699
GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
VBIOS Version : 80.10.11.00.0B
Inforom Version
Image Version : 2081.0208.01.07
OEM Object : 1.1
ECC Object : 3.0
Power Management Object : N/A
GPU Operation Mode
Current : Compute
Pending : Compute
PCI
Bus : 0x02
Device : 0x00
Domain : 0x0000
Device Id : 0x102810DE
Bus Id : 0000:02:00.0
Sub System Id : 0x101510DE
GPU Link Info
PCIe Generation
Max : 2
Current : 2
Link Width
Max : 16x
Current : 16x
Fan Speed : N/A
Performance State : P0
Clocks Throttle Reasons
Idle : Not Active
User Defined Clocks : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
Unknown : Not Active
Memory Usage
Total : 4799 MB
Used : 12 MB
Free : 4787 MB
Compute Mode : Default
Utilization
Gpu : 100 %
Memory : 0 %
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Temperature
Gpu : 30 C
Power Readings
Power Management : Supported
Power Draw : 49.51 W
Power Limit : 225.00 W
Default Power Limit : 225.00 W
Min Power Limit : 150.00 W
Max Power Limit : 225.00 W
Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Applications Clocks
Graphics : 705 MHz
Memory : 2600 MHz
Max Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Compute Processes : None
quelle
Antworten:
Stirbt meine GPU?
Ich sage es ist schon tot. Es werden keine Bitfehler mehr gemeldet , da Sie die Funktion, die sie erkennt, deaktiviert haben. (ECC erkennt mehr, als es korrigieren kann.) Möglicherweise ist jedoch der Speicher auf der Karte (oder die physische Karte selbst) fehlerhaft.
Es gibt noch zwei andere Verdächtige, die ich in den Papierkorb werfen würde: Kühlung und Stromversorgung. Die Kühlung ist leicht zu überprüfen. Macht, nicht so sehr.
quelle