该解决方案有何用途?

该解决方案基于开源软件Slurm及华为云自研开源软件Gearbox构建弹性伸缩能力,快速帮助用户在华为云上完成可自动弹性伸缩的HPC环境搭建。Slurm工作节点云服务器采用无配置模式,Gearbox程序与弹性伸缩 AS及云监控服务CES对接,通过监控Slurm集群作业Job状态,实时自动弹性扩缩容Slurm集群环境,并自动完成弹性扩容出来的云服务器注册并加入集群或从集群注销并完成实例销毁。适用于以下场景:

HPC集群、数据管理和集群调度等场景。

方案架构

该解决方案可以帮助用户在华为云上轻松搭建可弹性扩展的Slurm集群。

基于Slurm构建泛HPC场景云上云下资源协同解决方案

版本:2.0.0

上次更新日期:2023年12月

来源:由华为云构建

部署:预计30分钟

卸载:预计10分钟

数据中心:

架构描述



该解决方案会部署如下资源:


1. 创建两台Linux弹性云服务器 ECS,安装软件Slurm,在调度节点安装Gearbox程序、配置Java环境。


2. 创建一条弹性公网IP EIP,用于提供访问公网和被公网访问能力。


3. 创建安全组,可以保护弹性云服务器 ECS的网络安全,通过配置安全组规则,限定云服务器的访问端口。


4. 使用镜像服务 IMS,创建计算节点服务器镜像,用于弹性扩容时使用该镜像配置计算节点服务器初始化环境。


5. 使用弹性伸缩 AS,创建一个伸缩组实例 ,通过设置弹性伸缩配置及伸缩策略来进行集群实例资源的弹性扩缩容。


6. 使用云监控服务 CES,Gearbox程序监测集群作业状态,计算自定义指标Workload值,上报指标到云监控服务。


7. 创建弹性文件服务 SFS,挂载到所有弹性云服务器 ECS上,为集群环境提供共享文件存储服务。

架构描述


该解决方案会部署如下资源:


1. 创建两台Linux弹性云服务器 ECS,安装软件Slurm,在调度节点安装Gearbox程序、配置Java环境。


2. 创建一条弹性公网IP EIP,用于提供访问公网和被公网访问能力。


3. 创建安全组,可以保护弹性云服务器 ECS的网络安全,通过配置安全组规则,限定云服务器的访问端口。


4. 使用镜像服务 IMS,创建计算节点服务器镜像,用于弹性扩容时使用该镜像配置计算节点服务器初始化环境。


5. 使用弹性伸缩 AS,创建一个伸缩组实例 ,通过设置弹性伸缩配置及伸缩策略来进行集群实例资源的弹性扩缩容。


6. 使用云监控服务 CES,Gearbox程序监测集群作业状态,计算自定义指标Workload值,上报指标到云监控服务。


7. 创建弹性文件服务 SFS,挂载到所有弹性云服务器 ECS上,为集群环境提供共享文件存储服务。

展开内容
收起内容