AI开发平台MODELARTS-物理机环境配置:步骤6:RoCE网络测试

时间:2024-09-05 08:36:24

步骤6:RoCE网络测试

  1. 安装cann-toolkit。

    查看服务器是否已安装CANN Toolkit,如果显示有版本号则已安装:
    cat /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/ascend_toolkit_install.info

    如果未安装,则需要从官网下载相关软件包,其中社区版可以直接下载(下载地址),商用版是权限受控,仅华为工程师和渠道用户有权限下载(下载链接)。

    安装CANN Toolkit,注意替换包名。
    chmod 700 *.run
    ./Ascend-cann-toolkit_6.3.RC2_linux-aarch64.run --full --install-for-all

  2. 安装mpich-3.2.1.tar.gz。

    单击此处下载,并执行以下命令安装:

    mkdir -p /home/mpich
    mv /root/mpich-3.2.1.tar.gz /home/
    cd /home/;tar -zxvf mpich-3.2.1.tar.gz
    cd /home/mpich-3.2.1
    ./configure --prefix=/home/mpich --disable-fortran
    make && make install

  3. 设置环境变量和编译hccl算子。

    export PATH=/home/mpich/bin:$PATH
    cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test
    export LD_LIBRARY_PATH=/home/mpich/lib/:/usr/local/Ascend/ascend-toolkit/latest/lib64:$LD_LIBRARY_PATH
    make MPI_HOME=/home/mpich ASCEND_DIR=/usr/local/Ascend/ascend-toolkit/latest

    算子编译完成后显示内容如下:

    图11 算子编译完成

  4. 单机all_reduce_test。

    进入hccl_test目录:
    cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test

    若是单机单卡,则执行:

    mpirun -n 1 ./bin/all_reduce_test -b 8 -e 1024M -f 2 -p 8 

    若是单机多卡,则执行:

    mpirun -n 8 ./bin/all_reduce_test -b 8 -e 1024M -f 2 -p 8
    图12 all_reduce_test

  5. 多机ROCE网卡带宽测试。

    1. 执行以下命令查看昇腾的RoCE IP:
      cat /etc/hccn.conf
      图13 查看昇腾的RoCE IP

    2. RoCE测试。

      在Session1:在接收端执行-i卡id。

      hccn_tool -i 7 -roce_test reset
      hccn_tool -i 7 -roce_test ib_send_bw -s 4096000 -n 1000 -tcp

      在Session2:在发送端执行-i卡id,后面的ip为上一步接收端卡的ip。

      cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test
      hccn_tool -i 0 -roce_test reset
      hccn_tool -i 0 -roce_test ib_send_bw -s 4096000 -n 1000 address 192.168.100.18 -tcp

      RoCE测试结果如图:

      图14 RoCE测试结果(接收端)
      图15 RoCE测试结果(服务端)

      • 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错:
        图16 报错信息

        需要执行下述命令后关闭roce_test任务后再启动任务。

        hccn_tool -i 7 -roce_test reset
      • 可执行如下命令查看网卡状态。
        for i in {0..7};do hccn_tool -i ${i} -link -g;done
      • 可执行如下命令查看单节点内网卡IP连通性。
        for i in $(seq 0 7);do hccn_tool -i $i -net_health -g;done

support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-1001.html