检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群云服务器节点创建完成,但在部署过程中失败了能否修复? 将集群删除,不要勾选“删除云服务器”,使用已有节点部署集群的方法重新部署集群。 父主题: 常见问题
查看集群的节点信息 操作场景 集群创建完成后,如需查看集群中节点的详细信息,可进入一站式HPC服务提供的“节点管理”页,查看例如当前集群中节点,包括节点名称和ID、节点类型、状态、规格、IP、共享存储挂载状态、可用区以及付费类型等信息。 操作步骤 前提条件:用户集群的节点列表不为空。
配置节点互信 配置节点互信免密登录 STAR-CCM+集群运行时候需要跨节点运行,推荐使用互信免密登录。 # 生成ssh公钥和私钥 ssh-key-gen # 拷贝公钥到指定主机的~/.ssh/authorized_key文件中 ssh-copy-id root@目标主机IP 例如:ssh-copy-id
集群的管理节点为运行状态,但是集群异常提示“master node cannot reached”怎么办? 问题描述 集群的管理节点为运行状态,但是集群异常提示“master node cannot reached”。 处理方法 检查“/etc/ssh/sshd_config”配
登录HPC-S²控制台。 单击左侧的“节点管理”; 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行删除操作的节点,单击操作列“删除”。 按需类型节点删除 选择是否删除云服务器,如勾选,连同云服务器一同删除,如不勾选,则只删除节点信息,对应的云服务器节点仍保留,用户可通过弹性云服务器页面查看。
操作场景 按需付费类型的节点资源暂不使用或出现故障时可停止节点,使资源不再计费。 包周期资源关机后仍继续扣费,需手动退订后可停止扣费。 只有状态为“运行中”的节点可执行停止操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。
当集群中某节点出现异常,可以使用节点重启的功能对该节点进行重启操作尝试恢复。 只有状态为“运行中”的节点可进行重启操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行停止操作的节点,单击操作中“更多 > 重启”。
此时,pbs作业回到queued状态,等待可用的计算资源。 开机2中关闭的计算节点,提供可用的计算资源。 此时,pbs作业会继续进行。 作业执行完成后,执行以下命令,查看作业信息。 qstat -f 作业ID 如图5所示,作业运行了3分03秒。由此可以看出,作业是从断点的位置进行续算的。 图5 中断后运行作业信息
华北-北京四”,其他区域暂不支持。 集群部署仅支持slurm和sge两种调度器。 集群部署支持鲲鹏架构的sge调度器,支持X86架构的slurm和sge调度器。 单个用户可创建集群的上限为3个。 单个集群中的计算节点的上限为2000个。 集群创建/扩容时,节点不能添加数据盘,如需使用,用户需手动挂载。
查看已有节点部署集群的进度 操作场景 使用已有节点部署集群的命令下发之后,如需查看集群的部署进度,可进入一站式HPC服务提供的“进度”页查看当前集群部署的具体进展和详细信息。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集群管理”页面选择要查看的集群,单击操作列的“进度”
名称不能以“-”、“.”开头和结尾 不能包含连续的“-”和“.”,例如“--”、“..”、“-.”和“.-” hpc-001.p1 选择“管理节点” 管理节点的筛选需要满足以下条件: 当前指定区域的ECS节点; 该节点状态为“运行中”。 该节点绑定了弹性IP。 该节点不在当前账号下的其他集群中。
弹性云服务器场景支持使用的MPI HPC当前支持的MPI包括: 驱动自带的OpenMPI 社区OpenMPI Spectrum MPI Intel MPI Platform MPI 以下小节的内容详细介绍了MPI的安装与使用,您可以根据需要选择合适的MPI进行安装。 父主题: 安装和使用MPI
未加入集群或节点不存在,那么集群将无法正常部署/创建。 处理方法 可删除集群重新创建,选择其中创建成功的计算节点手动绑定EIP,然后和其他计算节点重新创建集群。 删除状态异常的节点,从而使集群状态恢复正常。 父主题: 常见问题
安装和使用IB驱动自带的Open MPI 操作场景 本节操作指导用户在BMS上安装和使用IB驱动自带的Open MPI(以版本4.0.2a1为例)。 对于集群中的每台BMS,都需要执行该操作。 前提条件 已配置BMS集群间互相免密登录。 操作步骤 查询是否安装了IB驱动 执行以下命令,查询是否已成功安装IB驱动。
安装和使用IB驱动自带的Open MPI 操作场景 该任务指导用户在鲲鹏BMS集群上运行IB驱动自带的MPI应用(以版本4.0.2a1为例)。 前提条件 已配置BMS集群间互相免密登录。 集群中所有的BMS,均已安装IB驱动自带的OpenMPI。 操作步骤 关闭防火墙。 登录集群中任意一台BMS。
安装和使用IB驱动自带的Open MPI 操作场景 本节指导用户在BMS上安装和使用IB驱动自带的Open MPI(以版本3.1.0rc2为例)。 对于集群中的每台BMS,都需要执行该操作。 前提条件 已配置BMS集群间互相免密登录。 操作步骤 查询是否安装了IB驱动。 执行以下命令,查询是否已成功安装IB驱动。
节点关机后,如需再次重启恢复使用,可重新启动节点。 状态为“停止”的节点可进行启动操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要启动的节点,单击操作中“更多 > 启动”。 单击“确定”。 提交成功
鲲鹏裸金属服务器支持使用的MPI HPC当前支持的MPI包括: 驱动自带的OpenMPI 社区OpenMPI MPICH 以下小节的内容详细介绍了MPI的安装与使用,您可以根据需要选择合适的MPI进行安装。 父主题: 安装和使用MPI(鲲鹏BMS场景)
IB驱动自带的OpenMPI 操作场景 本节指导用户安装和使用IB驱动自带的OpenMPI(以版本3.0.0rc6为例)。 前提条件 已配置弹性云服务器免密登录。 操作步骤 检查是否已安装IB驱动。 使用“PuTTY”,采用密钥对方式登录弹性云服务器。 执行以下命令,切换为root