Я работаю над удаленным кластером (westgrid> bugaboo), на котором я отправляю процессы через файл .pbs . Мой. .pbs выглядит так
#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M myname@gmail.com
#PBS -l pmem=3000mb
#PBS -t 1-100
echo "Starting run at: `date`"
R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R
echo "Job finished with exit code $? at: `date`"
где PBS_ARRAYID будет принимать значения от 1 до 100 для каждого конкретного задания. /Path/To/code.R является оболочкой R для некоторого двоичного файла, написанного на C Когда я отправляю работу
$ qsub mypbs.pbs
Кажется, все работает нормально. Симуляции запускаются, как и ожидалось, и я получил результаты. Проблема в том, что в какой-то момент во время симуляции я часто вижу странные задания в "заблокированных заданиях".
$ showq -u myName
active jobs------------------------
JOBID              USERNAME      STATE PROCS   REMAINING            STARTTIME
0 active jobs            0 of 4516 processors in use by local jobs (0.00%)
                        428 of 436 nodes active      (98.17%)
eligible jobs----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME
0 eligible jobs   
blocked jobs-----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME
30004048[]          matthey  NotQueued     1  2:02:00:00  Wed Mar 23 12:56:27
30156104[]          matthey  NotQueued     1  2:02:00:00  Mon Mar 28 01:14:16
2 blocked jobs   
Total jobs:  2
Идентификатор задания действительно такой же, как и у тех, кто выполнял (или выполнял раньше), но эти два заблокированных задания не имеют PBS_ARRAYID в квадратных скобках. Эти работы остаются там надолго, и я не могу их удалить 
$ qdel 30004048[]
qdel: nonexistent job id: 30004048[]
Кроме того, я не могу отправить новую работу (что является основной проблемой), когда я получаю сообщение
$ qsub mypbs.pbs
qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)
хотя я НЕ нарушаю этот лимит сервера. В конечном итоге эти задания "NotQueued" в конечном итоге исчезают, но только через относительно длительное время.
Эта проблема случалась со мной несколько раз в прошлом, и среди всех пользователей этого кластера я, похоже, единственный, кто столкнулся с этой проблемой. Обращаясь в службу поддержки, они обычно в итоге каким-то образом удаляют две работы, но до сих пор я не получил никакого долгосрочного решения этой проблемы.
- У вас есть представление о том, что происходит?
 - Могу ли я удалить эти две странные работы?
 - Как я могу избежать повторения подобных вещей?
 
