AI开发平台MODELARTS-训练作业性能降低:处理方法

时间:2024-10-16 17:32:26

处理方法

  1. 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。
  2. 检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。
  3. 通过CloudShell登录到Linux工作页面,检查GPU工作情况:
    • 通过输入“nvidia-smi”命令,查看GPU工作是否异常。
    • 通过输入“nvidia-smi -q -d TEMPERATURE”命令, 查看TEMP参数是否存在异常, 如果温度过高,会导致训练性能下降。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0135.html