1.如何调用CUDA环境调试GPU程序?
A:运行 srun -n 1 --exclusive -p gpu2Q --gres=gpu:2 --pty bash 提交一个互式作业,即可以独占模式申请一个双卡GPU节点,提交后终端会自动切换到分配的节点中,完成调试后,回到登录节点正常使用作业提交(在作业脚本中指定GPU队列和GPU数量)。
2.使用vi编辑文件时,左下角显示“DOS”,表示文件为DOS格式,该如何转换成Unix格式?
A:运行命令dos2unix 文件名。
3.平台软件安装在什么位置?如何启用MPI编译器编译程序?
A:平台所有共用软件都安装在/public/software目录下;平台安装了多种MPI编译器,推荐使用Intel MPI和MKL数学库,加载Intel MPI编译环境可执行: source /public/software/intel/intel2019/intel2019-env.sh
4.如何在平台安装需要管理员权限的软件?
A: 如果您采购了正版或具有正规授权的软件,可以联系软件公司协助安装,期间需要管理员权限、或需要配置软件使用范围的,可以和软件公司一起到信息与网络中心3楼340办公室找管理员协助安装。其他免费、开源的软件,可以发邮件到hpc@csu.edu.cn请求管理员协助安装到平台的公共软件目录下。
5.如何在平台使用32位或其他linux操作系统环境?
A:平台提供了singuarity容器供不同计算环境需求使用。如:启用一个32位的CentOS6 环境,可提交一个容器作业:
srun -n1 --pty singularity run /public/software/singularity/containers/centos_6_i386.sif
目前平台的容器镜像放置在/public/software/singularity/containers目录下,用户如有其他容器镜像需求,请发邮件到hpc@csu.edu.cn
6.如何在平台使用图形界面软件?
A:为避免用户直接在登录节点运行程序,影响其它用户正常使用,平台不直接提供远程桌面(VNC)方式用于图形界面软件。需要使用图形界面的用户,需提交一个交互式计算任务,使软件运行在计算节点上。以运行python编辑器spyder的图形界面为例:
(1)用户首先需具有一个X虚拟桌面:Linux系统或者Mac OS的用户,可以在ssh登录时增加 -X 参数;Windows系统用户可以使用Xming或者MobaXterm(推荐)连接平台,并开启“X server”。
(2)提交一个交互式作业启动spyder编辑器:srun -n1 --exclusive --x11 /public/software/anaconda3/bin/spyder
7.如何安装使用anaconda环境并安装需要的软件包?
A:平台在/public/software/anaconda目录下安装了相应的软件,并开通了清华大学anaconda的源解析。常规使用操作及说明如下:
(1)/public/software/anaconda3/bin/conda init bash #初始化conda环境,须重新登录生效
(2)cp /public/software/anaconda3/condarc ~/.condarc && conda clean -i #配置清华大学conda源
(3)conda create -n py3.7 #创建自己的conda环境,如python 3.7
(4)conda activate py3.7 #激活py3.7环境
(5)conda install python=3.7 #安装需要的软件包
请不要在登录节点直接运行python程序,计算必须通过作业调度系统运行到计算节点之上。
8.作业调度系统的QOS作用是什么,如果选择合适的QOS?
A:QOS (Quality of Service)是Slurm作业调度系统中一种控制资源使用的机制。在作业提交时,通过-q或--qos参数来指定。如:
命令提交:srun -q gpuq -n 1 myprogram
脚本参数:#SBATCH --qos=gpuq
一些QOS限制带来的作业提示信息说明(执行squeue查看):
Job's QOS not permitted to use this partition #用户没有提交队列的权限
QOSMaxNodePerUserLimit #已达最大用户可用节点数限制
QOSMaxCpuPerUserLimit #已达最大用户可用CPU数限制
平台会根据使用情况调整可用的QOS,用户可以通过脚本命令qosinfo查看可用的QOS以及对应的队列权限。如:
[zy@ln01 ~]$ qosinfo
(1)Allow QOS of each partition:
----------------------------------------------------------------
PartitionName=cpuQ AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL #cpuQ允许所有QOS
PartitionName=ResQ AllowGroups=ALL AllowAccounts=ALL AllowQos=resq #ResQ仅允许resq QOS
PartitionName=gpu2Q AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq #gpu2Q仅允许gpuq QOS
PartitionName=gpu4Q AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq #gpu4Q仅允许gpuq QOS
PartitionName=gpu8Q AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq #gpu8Q仅允许gpuq QOS
PartitionName=fatQ AllowGroups=ALL AllowAccounts=ALL AllowQos=fatq #fatQ仅允许fatq QOS
(2)Limitation of each QOS:
Name MaxTRESPU MaxJobsPU
---------- ------------------------ ---------
normal cpu=2400,node=50 100 #normal QOS最多使用2400核心,最多使用50个节点,最大任务数为100.
gpuq cpu=40,node=1 10 #gpuq QOS最多使用40核心,最多使用1个节点,最大任务数为10.
fatq cpu=80,node=1 10 #fatq QOS最多使用80核心,最多使用1个节点,最大任务数为10.
(3)Available QOS for current user:
User QOS
---------- --------------------
zy fatq,gpuq,normal #用户zy可用的QOS有fatq,gpuq,normal