🚩 Slurm命令

常用的Slurm命令如下:

sinfo

查看集群总体信息。

$ sinfo

squeue

用于查看当前任务队列的状态。如

$ squeue
常用选项:
  • -u 用于显示某特定用户提交的任务的状态。

$ squeue -u yourusername

scancel

用于取消已提交的任务。比如,可通过以下命令取消任务号(JOBID)为116的任务,

$ scancel 116

在取消任务前,请仔细核对任务号(JOBID),切勿取消错任务(或取消其他用户的任务)。

常用选项:
  • -u 取消某指定用户的所有任务。比如,

$ scancel -u yourusername
  • -n 取消指定任务名下的所有任务。如

$ scancel -n testing

将取消所有名为testing的任务。

scontrol

用于查看和修改作业信息。比如

  • 1
    $ scontrol show job 120
    

    查看任务号(JOBID)为120的任务的详细信息。

  • 2
    $ scontrol show node n0
    

    查看n0节点的详细信息

  • 3
    $ scontrol update job 120 TimeLimit=2:00:00
    

    修改任务号(JOBID)为120的任务的时间限制为2小时。

  • 4
    $ scontrol hold job 120
    

    暂停任务号(JOBID)为120的任务。

  • 5
    $ scontrol release job 120
    

    重新将任务号(JOBID)为120的任务加入至任务队列。

sbatch

用于提交任务。比如

$ sbatch my_job.sh

将提交由 my_job.sh 任务配置文件定义的任务至GigaRiver.

🧮 任务提交和结果下载 部分,我们已经提供了一个典型的单线程任务配置文件。 在 🖇️ 并行运算🅿️ phyem任务 部分里,我们将提供典型的并行任务配置文件。