AI开发平台MODELARTS-日志提示“cuda runtime error (10) : invalid device ordinal at xxx”:原因分析

时间:2024-11-22 17:40:43

原因分析

可以从以下角度排查:

  • 请检查CUDA_VISIBLE_DEVI CES 设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行cuda相关的运算时,例如"tensor.to(device="cuda:7")",将张量搬到了7号GPU卡上,超过了实际可用的ID号。
  • 如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0049.html