AI开发平台MODELARTS-训练作业运行失败,出现NCCL报错:处理步骤

时间:2024-10-22 15:11:54

处理步骤

  1. 进入状态“运行失败”的训练作业详情页,单击“日志”页签,查看NCCL报错。
    • 如果出现报错“NCCL timeout”或者“RuntimeError: NCCL communicator was aborted on rank 7”,则表示InfiniBand Verbs超时。单击右侧“重建”,重新创建训练作业,设置环境变量“NCCL_IB_TIMEOUT=22”,提交训练作业后等待作业完成。
    • 如果出现报错“NCCL WARN Bootstrap : no socket interface found”“NCCL INFO Call to connect returned Connection refused, retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。
  2. 等待训练作业是否变成“已完成”状态。
    • 是,故障处理完成。
    • 否,则联系技术支持排查节点状态。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0001.html