SSH-Fehler: Temporärer Fehler bei der Namensauflösung bei MPI-Ausführung

2

Ich habe 6 Computer (je 4 Kerne und identische Hardware) mit statischen IP-Adressen und muss die rechnergestützte Chemie-Software NAMD parallel mit OpenMPI ausführen. Also ich

  1. installiertes SSH und OpenMPI (auf Mint 18)
  2. Platzieren Sie die ausführbare Datei in / bin auf allen Computern
  3. Einrichten von passwortlosem SSH (Ich kann auf alle 4 Slave-Computer ohne Passwort vom Master-Computer aus zugreifen)

Es funktioniert jedoch auf 3 Computern und für andere gibt es

 mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log  
 ssh: Could not resolve hostname slave32: Temporary failure in name resolution
 ssh: Could not resolve hostname slave27: Temporary failure in name resolution  
 [master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch  
 [master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages  

Meine / etc / hosts des Master-Computers sieht so aus

127.0.0.1   localhost  
#127.0.1.1  master  
172.18.112.78 master  
#Cluster Host Names  
172.18.112.75 slave25  
172.18.112.76 slave26  
172.18.112.77 slave27  
172.18.112.82 slave32  
172.18.112.81 slave31  

ssh slavexx funktioniert gut

meine mpi-hostdatei sieht so aus

localhost slots=4  
slave25 slots=4  
slave26 slots=4  
slave27 slots=4  
slave31 slots=4  
slave32 slots=4  

slave25 und slave26 funktionieren einwandfrei (max 12 prozessoren, mpiexec -np 16), aber mehr als das geben ssh: Could not resolve hostname slavexx: Temporary failure in name resolution Error. es ist so seltsam, da ich pingen kann, ssh alle 5 Computer ohne ein Problem.

hat jemand eine idee das zu lösen?

und eine andere Sache, diese Maschinen sind geklont. Deshalb habe ich kürzlich den Hostnamen des Computers geändert und SSH und OpenMPI neu installiert.

AKTUALISIEREN: Gerade jetzt habe ich herausgefunden, dass nur die ersten drei in der mpi-hostfile wird für den MPI-Lauf verwendet. für andere über Fehler Pops!

Madhuranga
quelle
Können Sie die anderen Hosts anpingen, mit denen Sie Probleme haben? Sie müssen sicherstellen, dass ihre Hostnamen aufgelöst werden können. Können Sie auch nach Ihrer /etc/resolv.conf-Datei suchen? Versuchen Sie, den DNS-Server dort zu entfernen, damit nur Ihre hosts-Datei verwendet wird
Tim Connor
Ja, ich kann andere anpingen und habe die Lösung gefunden! Ich muss passwortloses ssh auf allen Rechnern aktivieren, einschließlich Slave-Rechnern. Es löst das Problem.
Madhuranga