Я использую SLURM в качестве планировщика заданий и очереди для небольшого кластера (один узел с 64 ядрами). Для отправки пакетной работы я использую:
> sbatch run.sh
Где run.sh выглядит так:
#! /bin/bash
#SBATCH --ntasks=4
export OMP_THREAD_LIMIT=4
/home/Benchmarks/Graph500/omp-csr/omp-csr -s 23
Однако, когда я отправляю 2 пакетных задания одно за другим, я получаю:
> squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
29 debug run.sh anonymou PD 0:00 1 (Resources)
28 debug run.sh anonymou R 1:13 1 localhost
Каждое задание требует только 4 ядра, поэтому оба задания должны выполняться. Возможно, я неправильно настроил контроллер slurm, соответствующие строки из /etc/slurm.conf:
# COMPUTE NODES
NodeName=localhost CPUs=64 Sockets=4 CoresPerSocket=8 ThreadsPerCore=2 State=UNKNOWN
PartitionName=debug Nodes=localhost Default=YES MaxTime=INFINITE State=UP
Буду благодарен за любую помощь / подсказку.