高性能计算

当前位置: 首页 - 服务指南 - 正文

高性能计算

常见问题列表

更新时间:2020-09-15 点击:

1.如何调用CUDA环境调试GPU程序?

A:运行 srun -n 1 --exclusive -p gpu2Q --gres=gpu:2 --pty bash 提交一个互式作业,即可以独占模式申请一个双卡GPU节点,提交后终端会自动切换到分配的节点中,完成调试后,回到登录节点正常使用作业提交(在作业脚本中指定GPU队列和GPU数量)。


2.使用vi编辑文件时,左下角显示“DOS”,表示文件为DOS格式,该如何转换成Unix格式?

A:运行命令dos2unix 文件名


3.平台软件安装在什么位置?如何启用MPI编译器编译程序?

A:平台所有共用软件都安装在/public/software目录下;平台安装了多种MPI编译器,推荐使用Intel MPI和MKL数学库,加载Intel MPI编译环境可执行:  source /public/software/intel/intel2019/intel2019-env.sh


4.如何在平台安装需要管理员权限的软件?

A: 如果您采购了正版或具有正规授权的软件,可以联系软件公司协助安装,期间需要管理员权限、或需要配置软件使用范围的,可以和软件公司一起到信息与网络中心3楼340办公室找管理员协助安装。其他免费、开源的软件,可以发邮件到hpc@csu.edu.cn请求管理员协助安装到平台的公共软件目录下。


5.如何在平台使用32位或其他linux操作系统环境?

A:平台提供了singuarity容器供不同计算环境需求使用。如:启用一个32位的CentOS6 环境,可提交一个容器作业:

srun -n1 --pty singularity run /public/software/singularity/containers/centos_6_i386.sif

目前平台的容器镜像放置在/public/software/singularity/containers目录下,用户如有其他容器镜像需求,请发邮件到hpc@csu.edu.cn


6.如何在平台使用图形界面软件?

A:为避免用户直接在登录节点运行程序,影响其它用户正常使用,平台不直接提供远程桌面(VNC)方式用于图形界面软件。需要使用图形界面的用户,需提交一个交互式计算任务,使软件运行在计算节点上。以运行python编辑器spyder的图形界面为例:

(1)用户首先需具有一个X虚拟桌面:Linux系统或者Mac OS的用户,可以在ssh登录时增加 -X 参数;Windows系统用户可以使用Xming或者MobaXterm(推荐)连接平台,并开启“X server”。

(2)提交一个交互式作业启动spyder编辑器:srun -n1 --exclusive --x11 /public/software/anaconda3/bin/spyder


7.如何安装使用anaconda环境并安装需要的软件包?

A:平台在/public/software/anaconda目录下安装了相应的软件,并开通了清华大学anaconda的源解析。常规使用操作及说明如下:

(1)/public/software/anaconda3/bin/conda init bash   #初始化conda环境,须重新登录生效

(2)cp /public/software/anaconda3/condarc ~/.condarc  && conda clean -i    #配置清华大学conda源

(3)conda create -n py3.7    #创建自己的conda环境,如python 3.7

(4)conda activate py3.7     #激活py3.7环境

(5)conda install python=3.7  #安装需要的软件包

请不要在登录节点直接运行python程序,计算必须通过作业调度系统运行到计算节点之上。


8.作业调度系统的QOS作用是什么,如果选择合适的QOS?

A:QOS (Quality of Service)是Slurm作业调度系统中一种控制资源使用的机制。在作业提交时,通过-q或--qos参数来指定。如:

命令提交:srun -q gpuq -n 1 myprogram

脚本参数:#SBATCH --qos=gpuq

一些QOS限制带来的作业提示信息说明(执行squeue查看):

Job's QOS not permitted to use this partition    #用户没有提交队列的权限

QOSMaxNodePerUserLimit                   #已达最大用户可用节点数限制

QOSMaxCpuPerUserLimit                    #已达最大用户可用CPU数限制

平台会根据使用情况调整可用的QOS,用户可以通过脚本命令qosinfo查看可用的QOS以及对应的队列权限。如:

[zy@ln01 ~]$ qosinfo


(1)Allow QOS of each partition:

----------------------------------------------------------------

PartitionName=cpuQ   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL    #cpuQ允许所有QOS

PartitionName=ResQ   AllowGroups=ALL AllowAccounts=ALL AllowQos=resq   #ResQ仅允许resq QOS

PartitionName=gpu2Q  AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq   #gpu2Q仅允许gpuq QOS

PartitionName=gpu4Q  AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq   #gpu4Q仅允许gpuq QOS

PartitionName=gpu8Q  AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq   #gpu8Q仅允许gpuq QOS

PartitionName=fatQ   AllowGroups=ALL AllowAccounts=ALL AllowQos=fatq   #fatQ仅允许fatq QOS        


(2)Limitation of each QOS:

    Name   MaxTRESPU        MaxJobsPU

---------- ------------------------ ---------

   normal   cpu=2400,node=50    100    #normal QOS最多使用2400核心,最多使用50个节点,最大任务数为100.

    gpuq    cpu=40,node=1      10    #gpuq QOS最多使用40核心,最多使用1个节点,最大任务数为10.

    fatq    cpu=80,node=1      10     #fatq QOS最多使用80核心,最多使用1个节点,最大任务数为10.


(3)Available QOS for current user:

  User       QOS

---------- --------------------

  zy       fatq,gpuq,normal                           #用户zy可用的QOS有fatq,gpuq,normal