检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/mlnxofedinstall 安装配置ucx。 下载ucx安装包 # cd /opt && wget https://github.com/openucx/ucx/releases/download/v1.6.0/ucx-1.6.0.tar.gz 解压ucx包 # tar -xvf ucx-1.6.0
在单个BMS上通过MPICH运行可执行文件。 $ mpirun -np 2 -hostfile /home/rhel/hostfile /home/rhel/hello 图2 集群上运行MPICH成功 hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。
and网卡驱动下载,并根据Mellanox提供的操作指导进行安装。 以操作系统CentOS 7.3为例,推荐安装4.2.1版本的安装包,下载安装包“MLNX_OFED_LINUX-4.2-1.2.0.0-rhel7.3-x86_64.tgz”,并执行以下命令进行安装: # yum
hostfile /home/rhel/hello 图3 集群上运行Spetrum MPI成功 hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 父主题: 在HPC集群上运行MPI应用(X86 BMS场景)
hostfile /home/rhel/hello 图2 集群上运行社区OpenMPI成功 hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 父主题: 在HPC集群上运行MPI应用(鲲鹏BMS场景)
/home/rhel/hello 图3 BMS集群上Platform MPI运行成功 hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 父主题: 在HPC集群上运行MPI应用(X86 BMS场景)
hostfile /home/rhel/hello 图3 BMS集群上运行Intel MPI成功 hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 父主题: 在HPC集群上运行MPI应用(X86 BMS场景)
hostfile /home/rhel/hello 图3 集群上运行社区OpenMPI成功 hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 父主题: 在HPC集群上运行MPI应用(X86 BMS场景)
host-192-168-0-75 /root/spe_hello 图1 在集群上通过Spectrum MPI运行可执行文件 hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 父主题: 在HPC集群上运行MPI应用
确认关闭防火墙成功 依次登录集群中所有BMS,重复执行步骤1.2~步骤1.3,关闭所有BMS的防火墙。 修改配置文件。 登录集群中任意一台BMS, 执行以下命令,添加hosts配置文件。 # vi /etc/hosts 添加的内容为集群中所有BMS的私网IP和主机名,例如: 192.168
-machinefile hostfile /root/platform_hello hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 图3 集群上运行Platform MPI成功 父主题: 在HPC集群上运行MPI应用
-machinefile hostfile -np 12 /root/intel_hello hostfile文件在运行时需要指定路径,可执行文件hello路径需为绝对路径,集群中所有可执行文件在同一路径下。 图3 集群上运行Intel MPI成功 父主题: 在HPC集群上运行MPI应用
c,关闭所有BMS的防火墙。 修改配置文件。 登录集群中任意一台BMS。 执行以下命令,查看BMS的主机名。 $ hostname 图2 查看BMS的主机名 依次登录集群中所有BMS,重复执行1.b~2.b,获取所有BMS的主机名。 登录集群中任意一台BMS。 执行以下命令,添加hosts配置文件。 # vi
创建弹性云服务器 弹性云服务器C6h实例介绍 C6h实例为弹性云服务器下的一款裸金属产品,相比于普通的裸金属产品,C6h实例除了提供标准的以太网卡,还提供了一个支持RoCE协议的网卡,而RoCE协议相比于普通的以太协议最大的优势在于时延极低,特别适合HPC场景低时延业务。 购买弹性云服务器
执行以下命令,防止系统超时退出。 # TMOUT=0 将ECS对应的密钥文件(.pem文件,假设为*.pem)拷贝至.ssh目录下,命名为“id_rsa”。 $ cd ~/.ssh $ mv *.pem id_rsa 执行以下命令,给密钥文件配置权限。 $ sudo chmod 600 id_rsa
执行以下命令,防止系统超时退出。 # TMOUT=0 将BMS对应的密钥文件(.pem文件)拷贝至.ssh目录下,命名为“id_rsa”。 $ cd ~/.ssh $ mv *.pem id_rsa 执行以下命令,给密钥文件配置权限。 $ sudo chmod 600 id_rsa 执行
创建镜像需选择ECS系统盘镜像。 需修改镜像属性才能在ECS创建界面的C6h规格中选择到相应的镜像。 镜像获取 请联系技术支持进行操作。 创建系统盘镜像 请使用镜像文件创建系统盘镜像,需注意镜像用途选择ECS系统盘镜像如图1,选择启动方式为UEFI图2,否则系统无法启动。 图1 创建系统盘镜像 图2 选择启动方式
将下载的OpenMPI压缩包(以openmpi-3.1.1.tar.gz为例)拷贝至弹性云服务器内,并执行以下命令进行解压。 # tar -xzvf openmpi-3.1.1.tar.gz # cd openmpi-3.1.1 执行以下命令,安装需要的库文件。 # yum install
停止集群 操作场景 按需类型的集群,如暂时没有任务需要执行,可使用集群停止功能对集群进行管理操作以节省费用。 包周期资源不适用,关机后仍继续扣费,需手动退订后可停止扣费。 有集群状态为“运行中”的集群可进行停止操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。
同时指定管理节点配置与计算节点配置。 图1 购买HPC集群 使用已有节点部署HPC集群:在已有节点资源的前提下,指定管理节点与计算节点,完成HPC集群的部署。 图2 使用已有节点资源部署集群 父主题: 快速入门