Stirbt meine GPU?

14

Ich deaktiviere den ECC-Speicherschutz auf einem NVIDIA K20m (Gerät 0 in meinem Knoten) vorübergehend und kann ihn jetzt nicht wieder zum Laufen bringen. Davor funktionierte es ordnungsgemäß mit aktiviertem ECC. Also, hier ist, was ich getan habe: Ich habe ECC mit deaktiviert

nvidia-smi -i 0 --ecc-config=0

und neu gestartet. Als es erschien, zeigte es eine 100% ige GPU-Auslastung und startete keinen Kernel (es schlug tatsächlich bereits beim Erstellen des Kontexts fehl). Der Grund war ein Doppelbitfehler. Ich habe es mit zurückgesetzt

nvidia-smi -i 0 --reset-ecc-errors=0

und den Knoten neu gestartet. Nach dem Neustart lag die Geräteauslastung bei 0% und ich konnte wie gewohnt Jobs starten. Einige Stunden später zeigte das Gerät wieder eine 100% ige GPU-Auslastung. Diesmal wurde kein Doppelbitfehler gemeldet (nicht einmal ein Einzelbitfehler). Da ich jedoch keinen Job ausführen konnte, habe ich den Knoten neu gestartet und eine 100% ige GPU-Auslastung erzielt. Ich kann ihn nicht verwenden, meldet jedoch keine Bitfehler. Was ist los damit?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None
ritter
quelle
2
erscheint merkwürdig; so etwas habe ich noch nie gesehen. Versuchen Sie, die Treiber erneut zu installieren, auch wenn dies möglicherweise nicht zur Lösung des Problems beiträgt.
Ben Franchuk
Ich vermute du hast schon versucht das offensichtliche einfach alles zu verschrotten und neu zu installieren? Ich meine, ähm, ich weiß wenig über Hardware, daher ist mein Ansatz immer, absolut sicherzugehen, dass die Software - was ich verstehe - funktionieren sollte. Und dann erkläre ich das Stück möglicherweise für zerbrochen, bis einer sachkundigeren Meinung widersprochen wird.
Ariane
Ich habe darüber nachgesehen und einige Zeit damit verbracht, dieses Problem und seine Ursachen zu untersuchen. Es scheint, dass die beste Lösung darin besteht, die Hardware zu ersetzen.
Adovi
1
Haben Sie versucht, CMOS bereits zurückzusetzen?
Sergei

Antworten:

2

Stirbt meine GPU?

Ich sage es ist schon tot. Es werden keine Bitfehler mehr gemeldet , da Sie die Funktion, die sie erkennt, deaktiviert haben. (ECC erkennt mehr, als es korrigieren kann.) Möglicherweise ist jedoch der Speicher auf der Karte (oder die physische Karte selbst) fehlerhaft.

Es gibt noch zwei andere Verdächtige, die ich in den Papierkorb werfen würde: Kühlung und Stromversorgung. Die Kühlung ist leicht zu überprüfen. Macht, nicht so sehr.

Ricky Beam
quelle