У меня есть 6 компьютеров (4 ядра каждое и идентичные по аппаратному обеспечению) со статическими IP-адресами, и мне нужно параллельно запускать программное обеспечение NAMD для вычислительной химии с использованием OpenMPI. Так что я
- установлены SSH и OpenMPI (на монетном дворе 18)
- поместите исполняемый файл в /bin на всех компьютерах
- установить SSH без пароля (я могу получить доступ ко всем 4 подчиненным компьютерам без пароля с главного компьютера)
Однако он работает на 3 компьютерах, а для других он дает
mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log
ssh: Could not resolve hostname slave32: Temporary failure in name resolution
ssh: Could not resolve hostname slave27: Temporary failure in name resolution
[master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch
[master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
мой /etc /hosts на главном компьютере выглядит так
127.0.0.1 localhost
#127.0.1.1 master
172.18.112.78 master
#Cluster Host Names
172.18.112.75 slave25
172.18.112.76 slave26
172.18.112.77 slave27
172.18.112.82 slave32
172.18.112.81 slave31
ssh slavexx работает отлично
мой mpi-hostfile выглядит так
localhost slots=4
slave25 slots=4
slave26 slots=4
slave27 slots=4
slave31 slots=4
slave32 slots=4
slave25 и slave26 работают нормально (максимум 12 процессоров, mpiexec -np 16), но более того дают ssh: Could not resolve hostname slavexx: Temporary failure in name resolution
ошибке разрешения имени . это так устало, так как я могу пинговать все 5 компьютеров без проблем.
У кого-нибудь есть идея, чтобы решить эту проблему?
и еще одна вещь, эти машины клонированы. поэтому я недавно изменил имя хоста компьютера и переустановил SSH и OpenMPI.
ОБНОВЛЕНИЕ: только сейчас я понял, что только первые три в mpi-hostfile
используются для запуска MPI. для других выше ошибка выскакивает!