检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群创建完成后,如需查看集群的详细信息,可进入一站式HPC服务提供的“集群详情”页,查看例如当前集群的ID、状态、所在区域、虚拟私有云、安全组、节点信息以及共享存储以及集群的关系图等信息。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集群管理”页面选择要查看的集群,单击集群名称查看集群详情页。
操作场景 按需付费类型的节点资源暂不使用或出现故障时可停止节点,使资源不再计费。 包周期资源关机后仍继续扣费,需手动退订后可停止扣费。 只有状态为“运行中”的节点可执行停止操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。
当集群中某节点出现异常,可以使用节点重启的功能对该节点进行重启操作尝试恢复。 只有状态为“运行中”的节点可进行重启操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行停止操作的节点,单击操作中“更多 > 重启”。
名称不能以“-”、“.”开头和结尾 不能包含连续的“-”和“.”,例如“--”、“..”、“-.”和“.-” hpc-001.p1 选择“管理节点” 管理节点的筛选需要满足以下条件: 当前指定区域的ECS节点; 该节点状态为“运行中”。 该节点绑定了弹性IP。 该节点不在当前账号下的其他集群中。
节点关机后,如需再次重启恢复使用,可重新启动节点。 状态为“停止”的节点可进行启动操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要启动的节点,单击操作中“更多 > 启动”。 单击“确定”。 提交成功
启动集群 操作场景 停止状态的集群,如需再次开启集群执行作业,可将集群重新启动。 只有状态为“停止”的集群可进行启动操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集群管理”页面选择要启动的集群,单击后方操作列“更多 > 启动”。 单击“确定”。 在集群
为什么集群被删除后还在计费? 按需购买的集群删除时未勾选“删除云服务器”,因此只删除了集群信息,集群中的云服务器资源仍在继续扣费。 包周期类型的集群删除时只能删除集群信息,云服务器资源需要手动退订。 管理节点如使用购买EIP的选择,集群删除时,即使勾选了“删除云服务器”,绑定的EIP资源也不会删除
计算密集型、海量数据处理等业务的计算需求,如科学研究、气象预报、计算模拟、军事研究、CAD/CAE、生物制药、基因测序、图像处理等,缩短需要的大量计算时间,提高计算精度。 方案架构 方案优势 降低TCO 可以按需租用,成本低,降低中小客户使用HPC的门槛。 提高效率 按需发放,快
执行以下命令,防止系统超时退出。 # TMOUT=0 执行以下命令,添加集群中所有主机的私网IP地址和主机名。 # vi /etc/hosts 添加的内容为集群中所有ECS的私网IP地址和主机名,例如: 192.168.0.1 ecs-ff-0001 192.168.0.2 ecs-ff-0002
停止集群 操作场景 按需类型的集群,如暂时没有任务需要执行,可使用集群停止功能对集群进行管理操作以节省费用。 包周期资源不适用,关机后仍继续扣费,需手动退订后可停止扣费。 有集群状态为“运行中”的集群可进行停止操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集
集群出现异常后,如无法手动进行恢复,可使用集群删除的功能将集群删除,删除时不要勾选“删除云服务器”,然后再使用“已有节点部署集群”的功能重新部署集群。 操作须知 删除集群时,集群管理节点所绑定的EIP资源是不会清理的,需要用户手动删除清理,否则会继续扣费。 删除集群时,如果集群当中的节点挂载了数据盘,集群删
ofa-v2-cma-roe-enp177s0是上一步/etc/dat.conf中首行配置的名称; client端的192.168.0.96是server端的ip。 验证通过的观测指标:client和server端都出现DAPL Test Complete. PASSED则表示验证通过
弹性云服务器场景典型应用 创建支持IB网卡的弹性云服务器 配置单个ECS免密登录 安装和使用MPI 制作私有镜像 创建应用集群 配置ECS集群互相免密登录 在HPC集群上运行MPI应用
登录HPC-S²控制台。 单击左侧的“节点管理”; 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行删除操作的节点,单击操作列“删除”。 按需类型节点删除 选择是否删除云服务器,如勾选,连同云服务器一同删除,如不勾选,则只删除节点信息,对应的云服务器节点仍保留,用户可通过弹性云服务器页面查看。
M+指定的物理核数。 ip1,ip2:运行STAR-CCM+指定的主机信息。 core_num1,core_num2:指定每个主机运行的物理核数。 hiroce gids:查下设备名和index。 UCX_NET_DEVICES: hiroce gids查到的有ip一行的ib_dev的值,:后面的值为port的id。
MPI安装 Platform MPI安装 PlatformMPI使用STAR-CCM+自带的,不需要安装。 OpenMPI安装(可选) 若使用STAR-CCM+自带的,可不用安装。 cd /root tar zxvf openmpi-4.0.1.tar.gz cd openmpi-4
裸金属服务器场景典型应用 创建裸金属服务器集群 配置BMS集群互相免密登录 安装和使用MPI(X86 BMS场景) 安装和使用MPI(鲲鹏BMS场景) 在HPC集群上运行MPI应用(X86 BMS场景) 在HPC集群上运行MPI应用(鲲鹏BMS场景)
集群云服务器节点创建完成,但在部署过程中失败了能否修复? 将集群删除,不要勾选“删除云服务器”,使用已有节点部署集群的方法重新部署集群。 父主题: 常见问题
此时,pbs作业回到queued状态,等待可用的计算资源。 开机2中关闭的计算节点,提供可用的计算资源。 此时,pbs作业会继续进行。 作业执行完成后,执行以下命令,查看作业信息。 qstat -f 作业ID 如图5所示,作业运行了3分03秒。由此可以看出,作业是从断点的位置进行续算的。 图5 中断后运行作业信息
hostname 执行以下命令,添加本主机私网IP地址和主机名。 # vi /etc/hosts 示例: 192.168.0.1 ecs-ff-0001 执行以下命令,ssh方式登录本节点,验证是否可以不输入密码登录ECS。 假设本主机的主机名为hostname1,则命令行如下: $ ssh