检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图解HPC解决方案 父主题: 简介
登录HPC-S²控制台。 单击左侧的“节点管理”; 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行删除操作的节点,单击操作列“删除”。 按需类型节点删除 选择是否删除云服务器,如勾选,连同云服务器一同删除,如不勾选,则只删除节点信息,对应的云服务器节点仍保留,用户可通过弹性云服务器页面查看。
但是要保持所有节点一致,并且后面starccm使用platform方式启动时候需要使用该配置名称。 enp177s0为网卡名称,可以使用ip a或者ipconfig查看到。 验证Udapl(使用dtest测试RoCE网络) 使用 dtest 进行验证: server端(192.168
集群的管理节点为运行状态,但是集群异常提示“master node cannot reached”怎么办? 问题描述 集群的管理节点为运行状态,但是集群异常提示“master node cannot reached”。 处理方法 检查“/etc/ssh/sshd_config”配
判断系统是否开启超线程。 通过查询系统的物理核数和逻辑核数的关系可以判断是否开启多线程,如果:逻辑核数 = 物理核数,说明没有开超线程;逻辑核数 = 2*物理核数,说明系统开启了多线程。 Linux系统可以通过查询/proc/cpuinfo文件得到和cpu相关的信息,所需要参数解释如下:
在弹性云服务器列表页,选择待制作镜像的云服务器,确认云服务器为“关机”状态。 如果云服务器为“开机”状态,您可通过单击“操作”列下的“更多 > 关机”将云服务器关机。 单击“操作”列下的“更多 > 制作镜像”,将弹性云服务器制作为私有镜像。 根据界面提示,填写镜像的基本信息。 源:云服务器 弹性云服务器:保持系统默认值
/etc/fstab 执行mount -a 备注: 192.168.0.15:/ 是从sfs turbo console中获取到的挂载的路径。 第1个1表示备份文件系统,第2个1表示从/分区的顺序开始fsck磁盘检测,0表示不检测,_rnetdev 表示主机无法挂载直接跳过,避免无法挂载主机无法启动。
其中RoCE v1是一种链路层协议,允许在同一个广播域下的任意两台主机直接访问。而RoCE v2是一种Internet层协议,即可以实现路由功能。虽然RoCE协议这些好处都是基于融合以太网的特性,但是RoCE协议也可以使用在传统以太网网络或者非融合以太网络中。 应用场景 网络密集
依次登录集群中所有BMS,重复执行1.b~1.c,关闭所有BMS的防火墙。 修改配置文件。 登录集群中任意一台BMS。 执行以下命令,查看BMS的主机名。 $ hostname 图2 查看BMS的主机名 依次登录集群中所有BMS,重复执行1.b~2.b,获取所有BMS的主机名。 登录集群中任意一台BMS。 执行以下命令,添加hosts配置文件。
执行以下命令,查看关闭计算节点后的作业信息。 qstat -f 作业ID 图4 中断前作业信息 此时,pbs作业回到queued状态,等待可用的计算资源。 开机2中关闭的计算节点,提供可用的计算资源。 此时,pbs作业会继续进行。 作业执行完成后,执行以下命令,查看作业信息。 qstat