AI开发平台MODELARTS-Lite Server部署推理服务:步骤四:创建rank_table_file.json

时间:2025-02-08 14:09:14

步骤四:创建rank_table_file.json

在启动容器前需要使用rank_table_file.json文件用于多机部署。

  1. 检查机器网络情况
    # 检查物理链接
    for i in {0..7}; do hccn_tool -i $i -lldp -g | grep Ifname; done 
    # 检查链接情况
    for i in {0..7}; do hccn_tool -i $i -link -g ; done
    # 检查网络健康情况
    for i in {0..7}; do hccn_tool -i $i -net_health -g ; done
    # 查看侦测ip的配置是否正确
    for i in {0..7}; do hccn_tool -i $i -netdetect -g ; done
    # 查看网关是否配置正确
    for i in {0..7}; do hccn_tool -i $i -gateway -g ; done
    # 检查NPU底层tls校验行为一致性,建议全0
    for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch
    # NPU底层tls校验行为置0操作
    for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done
  2. 获取每张卡的ip地址。
    for i in {0..7};do hccn_tool -i $i -ip -g; done
  3. 配置rank_table_file.json文件,并复制到每台机器上的${path-to-file}目录中。存放路径例如:/home/data/rank_table_file.json。详细样例参见附录:rank_table_file.json文件
  4. 设置rank_table_file.json文件权限。进入rank_table_file.json文件存放目录${path-to-file},执行如下命令。
    chmod 640 rank_table_file.json
support.huaweicloud.com/bestpractice-modelarts/modelarts_ds_infer_0006.html