BIMSA计算集群使用指南
简介
BIMSA计算集群(BCC)是一个中等规模和共享的计算集群,旨在为BIMSA学术和研究活动提供服务。在2023 年 11 月,BIMSA IT部向科研人员进行了计算需求调查。调查完成后,IT部门整合需求,寻找可能的解决方案,从管理层分配预算,准备并进行公平的招标,评估最佳解决方案,提交审批,最终执行采购流程。随后,完成集群硬件的采购、集群配置及部署。
基本服务器配置
1. 计算服务器(6台)
硬件配置 | |
CPU | 双 Intel Xeon Gold 6444Y (3.6GHz, 16核/32线程) |
内存 | 768GB (24 x 32GB RDIMM 4800MT/s) |
存储 | 480GB SSD 挂载于/ |
网络 | 10Gbps 上行链路(至登录节点) |
GPU | 双 Nividia L40 GPU PCIe |
软件配置 | |
操作系统 | Ubuntu 22.04 LTS |
系统软件包 | build-essentials |
GPU驱动 | Nvidia 550.90.07 |
CUDA | 11.8 |
CUDNN | 9.2.1.18 |
Anaconda | 2024.06-1 |
Pytorch | 2.4.0 |
2. 登录服务器(2台)
硬件配置 | |
CPU | 双 Intel Xeon Gold 6442Y (2.6GHz, 24核/48线程) |
内存 | 128GB (4 x 32GB RDIMM 4800MT/s) |
存储 | 480GB SSD 挂载于/ |
网络 | 10Gbps 上行链路(至用户网络) |
软件配置 | |
操作系统 | Ubuntu 22.04 LTS |
系统软件包 | build-essentials |
Anaconda | 2024.06-1 |
基本使用指南
基础条件
此集群的用户应熟悉以下技能/诀窍
1. Linux(尤其是 Ubuntu)操作系统,命令行操作
2. SLURM 作业调度系统(示例教程)
3. 无需 root 权限即可在主目录中构建自己的计算环境
访问 BCC
成功申请帐户后,您可以使用任何 ssh 客户端登录 sls.bimsa.net 端口22。如果您在BIMSA之外访问,请确保先连接到BIMSA VPN服务。
构建您的计算环境
整个 BCC 集群(包括登录和计算节点)共享相同的用户主目录。集群已经提供了 anaconda 环境。您可以在主目录中构建自己的虚拟环境来执行计算。
或者,您可以编译程序并放在主目录中
使用 SLURM
简单 Linux 资源管理实用程序 (SLURM) 是 BCC 的资源管理和作业调度系统。所有计算作业都必须由 SLURM 提交。
这是一个示例脚本(test.sh)
#!/bin/bash
#SBATCH -o job.%j.out
#SBATCH -J myFirstGPUJob
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=6
#SBATCH --gres=gpu:1
nvidia-smi
之后,您可以提交作业
$ sbatch test.sh
您可以通过以下方式读取作业输出
$ cat job.[nn].out