Particije Slurm
Privzeta particija je imenovana cpu
. Števuilo računskih vozlišč je omejeno na 960.
Particija | Vozlišča | Časovna omejitev | Seznam vozlišč | Pomnilnik |
---|---|---|---|---|
dev | 8 | 30:00 | login[0001-0008] | 257496MiB, 251GiB |
cpu | 960 | 2-00:00:00 | cn[0001-0960] | 257470MiB, 251GiB |
longcpu | 6 | 4-00:00:00 | cn[0010-0015] | 257470MiB, 251GiB |
gpu | 60 | 2-00:00:00 | gn[01-60] | 515517MiB, 503GiB |
largemem | 192 | 2-00:00:00 | cn[0385-0576] | 1031613MiB, 1007GiB |
Particije in transakcije
Slurm razume vire v gruči kot vozlišča. Vendar pa so vozlišča z enako konfiguracijo strojne opreme združena v particije. Particije so torej logične enote več vozlišč, vendar se lahko razumejo tudi kot vrste za naloge, vsaka od teh pa ima določene omejitve, kot so omejitve velikosti nalog, časovne omejitve, uporabniki, ki lahko uporabljajo particijo itd. V najboljšem primeru so naloge dodeljene vozliščem v particiji, dokler viri (vozlišča, procesorji, pomnilnik itd.) v tej particiji niso porabljeni. Ko je nalogi dodeljen nabor vozlišč, lahko uporabnik inicializira vzporedno delo v obliko korakov naloge v kateri koli konfiguraciji znotraj dodelitve. Zaženete lahko na primer samo en korak določene naloge, ki uporablja vsa vozlišča, dodeljena nalogi, ali pa lahko zaženete več korakov naloge hkrati, ki lahko neodvisno uporabljajo del dodelitve vira. Po drugi strani pa lahko Slurm nudi tudi upravljanje virov za procesorje, dodeljene nalogi, kar pomeni, da se lahko več korakov naloge pošlje hkrati in razvrsti v vrsto, dokler v dodelitvi naloge ni na voljo virov.
Če želite, da se naloga izvaja na ustreznem tipu vozlišča, boste morali določiti particijo v skripti naloge z uporabo možnosti --partition in določiti ime particije.
Razpoložljive particije v gruči se lahko določijo z ukazom sinfo.
[user@login0001]# sinfo -s
PARTITION AVAIL TIMELIMIT NODES(A/I/O/T) NODELIST
cpu* up 2-00:00:00 0/936/24/960 cn[0001-0960]
largemem up 2-00:00:00 0/185/7/192 cn[0385-0576]
gpu up 2-00:00:00 0/59/1/60 gn[01-60]
longcpu up 4-00:00:00 0/22/0/22 cn[0010-0015]
dev up 30:00 0/8/0/8 login[0001-0008]
See also options:
- sinfo -l -N - detailed information
- sinfo -T - display reservations
Podrobne informacije o vseh particijah uporabnik dobi z ukazom (scontrol show partition)
.
# scontrol show partition
PartitionName=cpu
AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
AllocNodes=ALL Default=YES QoS=N/A
DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=2-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED
Nodes=cn[0001-0960]
PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
OverTimeLimit=NONE PreemptMode=OFF
State=UP TotalCPUs=245760 TotalNodes=960 SelectTypeParameters=NONE
JobDefaults=(null)
DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
TRESBillingWeights=CPU=1.0,Mem=1G
PartitionName=largemem
AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
AllocNodes=ALL Default=NO QoS=N/A
DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=2-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED
Nodes=cn[0385-0576]
PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=YES:4
OverTimeLimit=NONE PreemptMode=OFF
State=UP TotalCPUs=49152 TotalNodes=192 SelectTypeParameters=NONE
JobDefaults=(null)
DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
TRESBillingWeights=CPU=1,Mem=0.25G
PartitionName=gpu
AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
AllocNodes=ALL Default=NO QoS=N/A
DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=2-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED
Nodes=gn[01-60]
PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
OverTimeLimit=NONE PreemptMode=OFF
State=UP TotalCPUs=15360 TotalNodes=60 SelectTypeParameters=NONE
JobDefaults=(null)
DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
TRESBillingWeights=CPU=1.0,Mem=0.5G,GRES/gpu=64.0
PartitionName=longcpu
AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
AllocNodes=ALL Default=NO QoS=N/A
DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=4-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED
Nodes=cn[0010-0015]
PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=YES:4
OverTimeLimit=NONE PreemptMode=OFF
State=UP TotalCPUs=1536 TotalNodes=6 SelectTypeParameters=NONE
JobDefaults=(null)
DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
TRESBillingWeights=CPU=1.0,Mem=1G
PartitionName=dev
AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
AllocNodes=ALL Default=NO QoS=N/A
DefaultTime=NONE DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=00:30:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED
Nodes=login[0001-0008]
PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
OverTimeLimit=NONE PreemptMode=OFF
State=UP TotalCPUs=768 TotalNodes=8 SelectTypeParameters=NONE
JobDefaults=(null)
DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED
Ukaz (squeue)
lahko uporabite, da preverite ime particije (PARTITION)
, določena vozlišča v particijah (NODELIST)
in status (ST / R - Running, PD - Pending)
nalog, ki se izvajajo na teh particijah. Za več informacij glejte stran z navodili (ukaz man squeue
).
[user@login0004]:squeue
JOBID PARTITION NAME USER ST TIME NODES NODE LIST (REASON)
65646 cpu chem mike R 24:19 2 cn00[27-28]
65647 cpu bio joan R 0:09 1 cn00014
65648 cpu math phil PD 0:00 6 (Resources)
Ukaz squeue ima veliko možnosti, s katerimi lahko uporabnik enostavno preveri informacije o transakcijah, ki ga zanimajo.
- $ squeue -l – podrobnosti o nalogah v vrsti (-l = long).
- $ squeue -u $USER – pridobi naloge od $USER,.
- $ squeue -p
– opravila v vrsti na izbrani particiji. - $ squeue -t PD – naloge, ki čakajo v vrsti.
- $ squeue -j
--start – ocenjen čas začetka naloge. Ukaz scontrol se lahko uporabi za pridobivanje podrobnejših informacij o vozliščih, particijah, opravilih, korakih opravil in konfiguraciji. - $ scontrol show partition
– pridobivanje podatkov o particiji - $ scontrol show nodes
– pridobivanje informacij o vozlišču