方案架构
该解决方案可以帮助用户在华为云上轻松搭建可弹性扩展的Slurm集群。
架构描述
该解决方案会部署如下资源:
1. 创建两台Linux弹性云服务器 ECS,安装软件Slurm,在调度节点安装Gearbox程序、配置Java环境。
2. 创建一条弹性公网IP EIP,用于提供访问公网和被公网访问能力。
3. 创建安全组,可以保护弹性云服务器 ECS的网络安全,通过配置安全组规则,限定云服务器的访问端口。
4. 使用镜像服务 IMS,创建计算节点服务器镜像,用于弹性扩容时使用该镜像配置计算节点服务器初始化环境。
5. 使用弹性伸缩 AS,创建一个伸缩组实例 ,通过设置弹性伸缩配置及伸缩策略来进行集群实例资源的弹性扩缩容。
6. 使用云监控服务 CES,Gearbox程序监测集群作业状态,计算自定义指标Workload值,上报指标到云监控服务。
7. 创建弹性文件服务 SFS,挂载到所有弹性云服务器 ECS上,为集群环境提供共享文件存储服务。
架构描述
该解决方案会部署如下资源:
1. 创建两台Linux弹性云服务器 ECS,安装软件Slurm,在调度节点安装Gearbox程序、配置Java环境。
2. 创建一条弹性公网IP EIP,用于提供访问公网和被公网访问能力。
3. 创建安全组,可以保护弹性云服务器 ECS的网络安全,通过配置安全组规则,限定云服务器的访问端口。
4. 使用镜像服务 IMS,创建计算节点服务器镜像,用于弹性扩容时使用该镜像配置计算节点服务器初始化环境。
5. 使用弹性伸缩 AS,创建一个伸缩组实例 ,通过设置弹性伸缩配置及伸缩策略来进行集群实例资源的弹性扩缩容。
6. 使用云监控服务 CES,Gearbox程序监测集群作业状态,计算自定义指标Workload值,上报指标到云监控服务。
7. 创建弹性文件服务 SFS,挂载到所有弹性云服务器 ECS上,为集群环境提供共享文件存储服务。