Ubuntu Box mit mehreren NVIDIA-Grafikkarten

3

Ich habe kürzlich eine Box von System76 gekauft, die über mehrere GPUs verfügt: eine Quadro M6000 und zwei Tesla K40.

Wenn ich es tue lspci | grep -i nvidia, heißt es

05:00.0 VGA compatible controller: NVIDIA Corporation Device 17f0 (rev a1)
05:00.1 Audio device: NVIDIA Corporation Device 0fb0 (rev a1)
06:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40c] (rev a1)
09:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40c] (rev a1)

Also, sie sind da . Aber wenn ich es tue nvidia-smi -L, zeigt es nur

GPU 0: Quadro M6000 (UUID: GPU-09446504-6a9e-866a-a65d-0f1d55b7657b)

und ls -l /dev/nvidia*zeigt

crw-rw-rw- 1 root root 195,   0 Aug  9 03:29 /dev/nvidia0
crw-rw-rw- 1 root root 195, 255 Aug  9 03:29 /dev/nvidiactl
crw-rw-rw- 1 root root 248,   0 Aug 12 16:19 /dev/nvidia-uvm

Ich kann nicht sicher sein, aber ich /dev/nvidia0vermute, es handelt sich um den Quadro M6000, und vielleicht ist die Tatsache, dass es keinen /dev/nvidia1oder keinen gibt /dev/nvidia2, ein weiteres Symptom (oder vielleicht die Ursache) dafür, dass die Box die Tesla K40 nicht sieht , meine Testprogramme, die cudaGetDeviceCount aufrufen , ergeben nur eine GPU ..

Ich verwende Ubuntu 14.04.3 und habe installiert cuda_7.0.28_linux.run(und die NVIDIA-Treiber über diese Ausführungsdatei installiert).

Warum sind die anderen Karten nicht zugänglich? Wie mache ich sie zugänglich?

bnsh
quelle
Ich hatte so viele Probleme beim Einrichten mehrerer Nvidia-Karten unter Ubuntu, dass ich aufgegeben habe. Wenden Sie sich besser direkt an den Nvidia-Support: Wenn Sie sich für GPU-Computing

Antworten:

2

In Ordung! txbob in den devtalk nvidia-Foren hat mir genug Hinweise gegeben , um zur Lösung zu gelangen.

Im Grunde genommen hat Nouveau die NVIDIA-Treiber gestört, und obwohl ich eine disable-nouveauDatei darin gesehen habe /etc/modprobe.d, war sie noch nicht in Kraft getreten, weil ich initramfs...

Um das zu tun, musste ich es tun

rm -f /boot/initrd*
update-initramfs -c -k all
update-grub2

danach laufende nvidia-smi -LErträge

GPU 0: Quadro M6000 (UUID: GPU-09446504-6a9e-866a-a65d-0f1d55b7657b)
GPU 1: Tesla K40c (UUID: GPU-e992022a-724f-8f47-e08f-a954053020e6)
GPU 2: Tesla K40c (UUID: GPU-4d14695e-3e43-bf43-a3e3-91190f696d39)

Also alles gut jetzt! Hoffentlich kann das jemand anderem helfen!

bnsh
quelle