检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
# TMOUT=0 执行以下命令,查询是否已安装IB驱动。 # rpm -qa | grep mlnx-ofa # ls /usr/mpi/gcc/openmpi-3.0.0rc6/bin/mpirun 图1 已安装IB驱动 如果上述两条命令均有如图1所示的返回值,则已安装IB驱动,执行3。
-a 命令查看 关闭超线程 系统默认关闭,如果是打开的,需要进行关闭。 判断系统是否开启超线程。 通过查询系统的物理核数和逻辑核数的关系可以判断是否开启多线程,如果:逻辑核数 = 物理核数,说明没有开超线程;逻辑核数 = 2*物理核数,说明系统开启了多线程。 Linux系统可以通过
在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要启动的节点,单击操作中“更多 > 启动”。 单击“确定”。 提交成功后,返回到节点管理页面,待操作完成节点状态变为“运行中”。 父主题: 节点管理
集群创建/扩容时,节点不能添加数据盘,如需使用,用户需手动挂载。 当前不支持集群恢复操作,创建失败或扩容失败的节点无法自动恢复。 集群创建/扩容时,公共镜像当前只支持CentOS 7系列。 集群/节点执行删除操作时,请自行判断是否删除节点所绑定的弹性公网IP和挂载的数据盘。未删除的弹性公网IP和数据盘会持续产生扣费。
d中的{pkey}。 # cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v 0000 | head -n1 例如 查询到是0x8f05,去掉第三位后0xf05。 图3 查询pkey 获取ucx PKEY。 # ucx_info
volume-attach f6959ab0-7e3d-4efe-94f0-f48f9f4dc176 d3a60e1a-3922-4821-883c-a7b8a19e0856 /dev/sdb 图12 挂载数据盘 绑定弹性公网IP。 URI PUT /v1/{$tenant_id}/publicips/{EIPid}
hostfile -mca btl_openib_if_include "mlx5_0:1" -x MXM_IB_USE_GRH=y /usr/mpi/gcc/openmpi-4.0.2a1/tests/imb/IMB-MPI1 PingPong 图3 集群运行IB驱动自带OpenMPI 系统回
lient端,dtest/rping测试RoCE网络仍异常。 解决方案: 1.请检查集群中每个节点的配置文件/etc/dat.conf中"ofa-v2-cma-roe-enp177s0"是否放在首行且每个节点都一致。 2.若以上方法无法解决,请联系技术支持处理。 父主题: 常见问题
停止节点 操作场景 按需付费类型的节点资源暂不使用或出现故障时可停止节点,使资源不再计费。 包周期资源关机后仍继续扣费,需手动退订后可停止扣费。 只有状态为“运行中”的节点可执行停止操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。
在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行停止操作的节点,单击操作中“更多 > 重启”。 单击“确定”。 提交成功后,返回到节点管理页面,待操作完成,节点状态变为“运行中”。 父主题: 节点管理
勾选“使用自动备份”。 设置“备份策略”。 在下拉列表中选择备份策略,或单击“管理备份策略”,在云服务器备份页面进行设置。如果您未创建任何备份策略,但是勾选了“使用自动备份”,系统将提供默认的备份策略,如图1所示。 图1 默认备份策略 更多关于裸金属服务器备份的信息,请参见《云服务器备份用户指南》。
则如表1所示。 表1 集群名称命名规则 参数 规则 样例 集群名称 集群名称长度范围为1到52位。 只能由英文字母、数字、“-”以及“.”组成 名称不能以“-”、“.”开头和结尾 不能包含连续的“-”和“.”,例如“--”、“..”、“-.”和“.-” hpc-001.p1 选择“管理节点”
# ./platform_mpi- 09.01.04.03r-ce.bin 按照提示输入Enter或1(accept the agreement)直到安装完成,以下为安装成功界面。 图1 Platform MPI安装成功 默认安装路径为/opt/ibm/platform_mpi。 配置MPI环境变量。
-168-0-27和host-192-168-0-75,可执行程序的目录为/root/spe_hello,文件名为spe_hello,则命令行如下: # mpirun --allow-run-as-root -np 2 -hostlist host-192-168-0-27,host-192-168-0-75
具体内容请参见实例类型。 节点数:计算节点可选1-50个。 设置网络,包括“虚拟私有云”、“安全组”、“网卡”等信息。 只有管理节点需要绑定EIP。 第一次使用公有云服务时,系统将自动为您创建一个虚拟私有云,包括安全组、网卡。 表1 参数说明 参数 解释 虚拟私有云 弹性云服务器
/usr/mpi/gcc/openmpi-3.0.0rc6/tests/imb/IMB-MPI1 PingPong # Minimum message length in bytes: 0 # Maximum message length in bytes: 4194304
host-192-168-0-1 192.168.0.2 host-192-168-0-2 ... 执行以下命令,添加hostfile文件。 $vi hostfile 添加集群中所有ECS的主机名,例如: host-192-168-0-1 host-192-168-0-1 ... 依次登录集群中所有ECS,重复执行步骤2
host-192-168-0-1 192.168.0.2 host-192-168-0-2 ... 执行以下命令,添加hostfile文件。 # vi hostfile 添加集群中所有ECS的主机名,例如: host-192-168-0-1 host-192-168-0-2 ... 依次登录集群中所有ECS,重复执行2
timeo=600,nolock 0 0" >> /etc/fstab 执行mount -a 备注: 192.168.0.15:/ 是从sfs turbo console中获取到的挂载的路径。 第1个1表示备份文件系统,第2个1表示从/分区的顺序开始fsck磁盘检测,0表示不检测,_rnetdev
hostnamectl set-hostname vm1 执行以下命令,添加“/etc/hosts”文件。 # vi /etc/hosts 添加的内容为弹性云服务器的主机名及IP地址,例如 #cat /etc/hosts 192.168.1.3 vm1 192.168.1.4 vm2 ...