AI开发平台MODELARTS-训练前卡死:解决方案3

时间:2024-10-22 15:11:58

解决方案3

可加入3个环境变量。

  • NCCL_IB_GID_INDEX=3: 使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能丢包,而且后面的交换机不会支持v1,就无法启动。
  • NCCL_IB_TC=128:数据包走交换机的队列4通道,这是RoCE协议标准。
  • NCCL_IB_TIMEOUT=22:把超时时间设置长一点,正常情况下网络不稳定会有5秒钟左右的间断,超过5秒就返回timeout了,改成22预计有二十秒左右,算法为4.096 µs * 2 ^ timeout。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0111.html