检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
0rc2为例)。 对于集群中的每台BMS,都需要执行该操作。 前提条件 已配置BMS集群间互相免密登录。 操作步骤 查询是否安装了IB驱动。 执行以下命令,查询是否已成功安装IB驱动。 $ ls /usr/mpi/gcc/openmpi-3.1.0rc2/bin/mpirun $ rpm
2a1为例)。 对于集群中的每台BMS,都需要执行该操作。 前提条件 已配置BMS集群间互相免密登录。 操作步骤 查询是否安装了IB驱动 执行以下命令,查询是否已成功安装IB驱动。 $ ls /usr/mpi/gcc/openmpi-4.0.2a1/bin/mpirun $ rpm
已配置弹性云服务器免密登录。 操作步骤 检查是否已安装IB驱动。 使用“PuTTY”,采用密钥对方式登录弹性云服务器。 执行以下命令,切换为root 用户。 $ sudo su 执行以下命令,防止系统超时退出。 # TMOUT=0 执行以下命令,查询是否已安装IB驱动。 # rpm -qa
登录集群中任意一台BMS。 执行以下命令,关闭BMS防火墙。 # service firewalld stop # iptables -F 执行以下命令,查看防火墙是否关闭成功。 # service firewalld status 图1 确认关闭防火墙成功 依次登录集群中所有BMS,重复执行步骤1.2~步骤1
验证MPI运行在RoCE网络上 执行以下命令,安装iproute2。 yum -y install iproute* 执行以下命令,查看RoCE上是否有流量。 rdma res show 若MPI运行中,回显结果中qp 数量较大(大于1),则证明运行在 RoCE 网络上: 无业务时 有业务时
当前不支持集群恢复操作,创建失败或扩容失败的节点无法自动恢复。 集群创建/扩容时,公共镜像当前只支持CentOS 7系列。 集群/节点执行删除操作时,请自行判断是否删除节点所绑定的弹性公网IP和挂载的数据盘。未删除的弹性公网IP和数据盘会持续产生扣费。 请不要在ECS控制台对HPC集群中的节点进行操作,以免集群出现异常。
登录集群中任意一台BMS。 执行以下命令,关闭BMS防火墙。 # service firewalld stop # iptables -F 执行以下命令,查看防火墙是否关闭成功。 # service firewalld status 图1 确认关闭防火墙成功 依次登录集群中所有BMS,重复执行步骤1.2~步骤1
tel/impi/2018.0.128/lib64 执行下列命令,导入环境变量。 # source ~/.bashrc 执行下列命令,查看是否导入成功。 # which mpirun 图2 环境变量导入成功 回显结果如图2所示,表示环境变量导入成功。 执行以下命令,在单个ECS上运行Intel
登录集群中任意一台BMS。 执行以下命令,关闭BMS防火墙。 # service firewalld stop # iptables -F 执行以下命令,查看防火墙是否关闭成功。 # service firewalld status 图1 确认关闭防火墙成功 依次登录集群中所有BMS,重复执行1.b~1.c,关闭所有BMS的防火墙。
tel/impi/2018.0.128/lib64 执行下列命令,导入环境变量。 $ source ~/.bashrc 执行下列命令,查看是否导入成功。 $ which mpirun 图2 Intel MPI环境变量导入成功 回显结果如图2所示,表示环境变量导入成功。 执行以下命令,在单个BMS上运行Intel
LD_LIBRARY_PATH=/opt/mpich-332/lib 执行下列命令,导入环境变量。 $ source ~/.bashrc 执行下列命令,查看是否导入成功。 $ which mpirun 图2 MPICH环境变量导入成功 回显结果如图2所示,表示环境变量导入成功。 执行以下命令,在单个BMS上运行MPICH。
登录集群中任意一台BMS。 执行以下命令,关闭BMS防火墙。 # service firewalld stop # iptables -F 执行以下命令,查看防火墙是否关闭成功。 # service firewalld status 图1 确认关闭防火墙成功 依次登录集群中所有BMS,重复执行步骤1.2~步骤1
执行以下命令,ssh方式登录本节点,验证是否可以不输入密码登录ECS。其中hostname1为本主机名。 $ ssh localhost $ ssh hostname1 依次登录集群中其他ECS,重复执行步骤1~4。 执行以下命令,验证参加测试的ECS之间是否可以免密码互相登录。 假设集群
MPI_IB_PKEY=步骤2.1中获取的pkey $source ~/.bashrc 如果存在多个pkey,使用英文逗号隔开。 执行以下命令,检查环境变量是否配置成功。 # which mpirun 图3 Platform MPI环境变量导入成功 执行下列命令,在单个ECS上运行Platform
MPI_IB_PKEY=2.a中获取的pkey $source ~/.bashrc 如果存在多个pkey,使用英文逗号隔开。 执行以下命令,检查环境变量是否配置成功。 # which mpirun 图3 检查环境变量 在单个BMS上运行Platform MPI。 执行以下命令,重新编译hello
执行以下命令,ssh方式登录本节点,验证是否可以不输入密码登录BMS。 $ ssh localhost 图1 免密登录BMS 系统回显结果如图1所示,可以无密钥登录本节点,表示权限配置成功。 依次登录集群中其他BMS,重复执行步骤1~5。 执行以下命令,验证参加测试的BMS之间是否可以免密码互相登录。
单击左侧的“节点管理”; 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行删除操作的节点,单击操作列“删除”。 按需类型节点删除 选择是否删除云服务器,如勾选,连同云服务器一同删除,如不勾选,则只删除节点信息,对应的云服务器节点仍保留,用户可通过弹性云服务器页面查看。 包周期类型节点删除
网络仍异常。 解决方案: 1.请检查集群中每个节点的配置文件/etc/dat.conf中"ofa-v2-cma-roe-enp177s0"是否放在首行且每个节点都一致。 2.若以上方法无法解决,请联系技术支持处理。 父主题: 常见问题
执行以下命令,添加本主机私网IP地址和主机名。 # vi /etc/hosts 示例: 192.168.0.1 ecs-ff-0001 执行以下命令,ssh方式登录本节点,验证是否可以不输入密码登录ECS。 假设本主机的主机名为hostname1,则命令行如下: $ ssh localhost $ ssh hostname1
登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集群管理”页面,对于不需要或异常的集群可进行删除操作。 按需类型集群 确定页可选择是否删除云服务器,如勾选,连同云服务器一同删除,如不勾选,则只删除集群信息,对应的云服务器节点仍保留,用户可通过弹性云服务器页面查看。 包周期类型集群