AI开发平台MODELARTS-物理机环境配置:步骤6:RoCE网络测试
步骤6:RoCE网络测试
- 安装cann-toolkit。
查看服务器是否已安装CANN Toolkit,如果显示有版本号则已安装:
cat /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/ascend_toolkit_install.info
如果未安装,则需要从官网下载相关软件包,其中社区版可以直接下载(下载地址),商用版是权限受控,仅华为工程师和渠道用户有权限下载(下载链接)。
安装CANN Toolkit,注意替换包名。chmod 700 *.run ./Ascend-cann-toolkit_6.3.RC2_linux-aarch64.run --full --install-for-all
- 安装mpich-3.2.1.tar.gz。
单击此处下载,并执行以下命令安装:
mkdir -p /home/mpich mv /root/mpich-3.2.1.tar.gz /home/ cd /home/;tar -zxvf mpich-3.2.1.tar.gz cd /home/mpich-3.2.1 ./configure --prefix=/home/mpich --disable-fortran make && make install
- 设置环境变量和编译hccl算子。
export PATH=/home/mpich/bin:$PATH cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test export LD_LIBRARY_PATH=/home/mpich/lib/:/usr/local/Ascend/ascend-toolkit/latest/lib64:$LD_LIBRARY_PATH make MPI_HOME=/home/mpich ASCEND_DIR=/usr/local/Ascend/ascend-toolkit/latest
算子编译完成后显示内容如下:
图11 算子编译完成
- 单机all_reduce_test。
进入hccl_test目录:
cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test
若是单机单卡,则执行:
mpirun -n 1 ./bin/all_reduce_test -b 8 -e 1024M -f 2 -p 8
若是单机多卡,则执行:
mpirun -n 8 ./bin/all_reduce_test -b 8 -e 1024M -f 2 -p 8
图12 all_reduce_test - 多机ROCE网卡带宽测试。
- 执行以下命令查看昇腾的RoCE IP:
cat /etc/hccn.conf
图13 查看昇腾的RoCE IP - RoCE测试。
hccn_tool -i 7 -roce_test reset hccn_tool -i 7 -roce_test ib_send_bw -s 4096000 -n 1000 -tcp
在Session2:在发送端执行-i卡id,后面的ip为上一步接收端卡的ip。
cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test hccn_tool -i 0 -roce_test reset hccn_tool -i 0 -roce_test ib_send_bw -s 4096000 -n 1000 address 192.168.100.18 -tcp
RoCE测试结果如图:
图14 RoCE测试结果(接收端)
图15 RoCE测试结果(服务端)- 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错:
图16 报错信息
需要执行下述命令后关闭roce_test任务后再启动任务。
hccn_tool -i 7 -roce_test reset
- 可执行如下命令查看网卡状态。
for i in {0..7};do hccn_tool -i ${i} -link -g;done
- 可执行如下命令查看单节点内网卡IP连通性。
for i in $(seq 0 7);do hccn_tool -i $i -net_health -g;done
- 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错:
- 执行以下命令查看昇腾的RoCE IP: