2

У меня есть 6 компьютеров (4 ядра каждое и идентичные по аппаратному обеспечению) со статическими IP-адресами, и мне нужно параллельно запускать программное обеспечение NAMD для вычислительной химии с использованием OpenMPI. Так что я

  1. установлены SSH и OpenMPI (на монетном дворе 18)
  2. поместите исполняемый файл в /bin на всех компьютерах
  3. установить SSH без пароля (я могу получить доступ ко всем 4 подчиненным компьютерам без пароля с главного компьютера)

Однако он работает на 3 компьютерах, а для других он дает

 mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log  
 ssh: Could not resolve hostname slave32: Temporary failure in name resolution
 ssh: Could not resolve hostname slave27: Temporary failure in name resolution  
 [master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch  
 [master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages  

мой /etc /hosts на главном компьютере выглядит так

127.0.0.1   localhost  
#127.0.1.1  master  
172.18.112.78 master  
#Cluster Host Names  
172.18.112.75 slave25  
172.18.112.76 slave26  
172.18.112.77 slave27  
172.18.112.82 slave32  
172.18.112.81 slave31  

ssh slavexx работает отлично

мой mpi-hostfile выглядит так

localhost slots=4  
slave25 slots=4  
slave26 slots=4  
slave27 slots=4  
slave31 slots=4  
slave32 slots=4  

slave25 и slave26 работают нормально (максимум 12 процессоров, mpiexec -np 16), но более того дают ssh: Could not resolve hostname slavexx: Temporary failure in name resolution ошибке разрешения имени . это так устало, так как я могу пинговать все 5 компьютеров без проблем.

У кого-нибудь есть идея, чтобы решить эту проблему?

и еще одна вещь, эти машины клонированы. поэтому я недавно изменил имя хоста компьютера и переустановил SSH и OpenMPI.

ОБНОВЛЕНИЕ: только сейчас я понял, что только первые три в mpi-hostfile используются для запуска MPI. для других выше ошибка выскакивает!

0