BIMSA计算集群使用指南

简介
BIMSA计算集群(BCC)是一个中等规模和共享的计算集群旨在为BIMSA学术和研究活动提供服务。在2023  11 月,BIMSA IT部向科研人员进行了计算需求调查。调查完成后,IT部门整合需求,寻找可能的解决方案,从管理层分配预算,准备并进行公平的招标,评估最佳解决方案,提交审批,最终执行采购流程。随后,完成集群硬件的采购、集群配置及部署。

基本服务器配置
1. 计算服务器(6台)

硬件配置

CPU

Intel Xeon Gold 6444Y (3.6GHz, 16核/32线程)

内存

768GB (24 x 32GB RDIMM 4800MT/s)

存储

480GB SSD 挂载于/
100TB 并行共享文件系统挂载于/home

网络

10Gbps 上行链路(至登录节点)
25Gbps 上行链路(至存储)

GPU

双 Nividia L40 GPU PCIe

软件配置

操作系统

Ubuntu 22.04 LTS

系统软件包

build-essentials

GPU驱动

Nvidia 550.90.07

CUDA

11.8

CUDNN

9.2.1.18

Anaconda

2024.06-1

Pytorch

2.4.0

2. 登录服务器(2台)

硬件配置

CPU

双 Intel Xeon Gold 6442Y (2.6GHz, 24核/48线程)

内存

128GB (4 x 32GB RDIMM 4800MT/s)

存储

480GB SSD 挂载于/
100TB 并行共享文件系统挂载于/home

网络

10Gbps 上行链路(至用户网络)
25Gbps 上行链路(至存储)

软件配置

操作系统

Ubuntu 22.04 LTS

系统软件包

build-essentials

Anaconda

2024.06-1

基本使用指南
基础条件
此集群的用户应熟悉以下技能/诀窍
1. Linux(尤其是 Ubuntu)操作系统,命令行操作
2. SLURM 作业调度系统(示例教程
3. 无需 root 权限即可在主目录中构建自己的计算环境

访问 BCC
成功申请帐户后,您可以使用任何 ssh 客户端登录 sls.bimsa.net 端口22。如果您在BIMSA之外访问,请确保先连接到BIMSA VPN服务。

构建您的计算环境
整个 BCC 集群(包括登录和计算节点)共享相同的用户主目录。集群已经提供了 anaconda 环境。您可以在主目录中构建自己的虚拟环境来执行计算。

或者,您可以编译程序并放在主目录中

使用 SLURM
简单 Linux 资源管理实用程序 (SLURM) 是 BCC 的资源管理和作业调度系统。所有计算作业都必须由 SLURM 提交。

这是一个示例脚本(test.sh)

#!/bin/bash
#SBATCH -o job.%j.out
#SBATCH -J myFirstGPUJob
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=6
#SBATCH --gres=gpu:1
nvidia-smi

之后,您可以提交作业

$ sbatch test.sh

您可以通过以下方式读取作业输出

$ cat job.[nn].out