У меня есть 1 незавершенное задание из 5, которое выполняется 19 часов, и я обеспокоен тем, что оно настанет до наступления рабочего дня. Я не администратор, и сейчас выходные, поэтому я хотел бы попробовать использовать эту функцию, которую я обнаружил недавно, показанную в этом примере:
$ salloc -N4 -C knl,snc4,flat --dependency=expand:$SLURM_JOB_ID bash
salloc: Granted job allocation 65543
Однако, когда я пытаюсь это сделать, я получаю сообщение об ошибке:
$ salloc --qos=1wk --dependency=expand:14602965
salloc: error: Job submit/allocate failed: Job dependency problem
Что я делаю неправильно?
ОБНОВИТЬ:
Мне удалось добиться успешного выполнения команды, когда я только пытался редактировать настенное время:
$ salloc --job-name freebayes.commands3-extend -t 7-00:00:00 --mem 387000 --dependency=expand:14602965
salloc: Granted job allocation 14604022
Однако я заметил, что salloc - это запущенный процесс в моей текущей оболочке:
$ ps
PID TTY TIME CMD
43140 pts/1 00:00:00 tcsh
43284 pts/1 00:00:00 salloc
43286 pts/1 00:00:00 tcsh
43321 pts/1 00:00:00 ps
Поэтому я предположил, что мне нужно запустить его с nohup (или внутри screen/tmux), чтобы я мог выйти из системы. Я свернул и убил процесс и переделал его с nohup. Тем не менее, без возможности изменить QOS, я ожидаю, что моя работа будет убита. Я пробовал и с -t и --qos, но получил ту же ошибку. Я подозреваю, что, поскольку я не указал явно --qos, я не могу использовать --dependency = expand для изменения задания. Я использовал qos по умолчанию ("1day").
Мой дополнительный вопрос: нужно ли мне использовать screen/tmux/nohup, когда я пытаюсь изменить работу?
Кроме того, есть ли какая-либо информация в этом выводе squeue, которая говорит мне, удастся ли ей продлить работу?
JOBID PARTITION MIN_MEMOR TIME CPUS PRIORITY START_TIME QOS TIME_LIMIT NAME
14602965 main 387000 20:05:37 3 0.0000038153 2018-11-02T13:36:30 1day 1-00:00:00 freebayes.commands3
14604022 main 387000 2:53 3 0.0000018135 2018-11-03T09:39:14 1day 3:57:00 freebayes.commands3-extend