AI开发平台MODELARTS-训练作业进程被kill:排查办法

时间:2024-10-22 15:11:52

排查办法

根据错误信息判断,报错原因来源于用户代码。

您可以通过以下两种方式排查:

  • 线上环境调试代码(仅适用于非分布式代码)
    1. 在开发环境(notebook)申请相同规格的开发环境实例。
    2. 在notebook调试用户代码,并找出问题的代码段。
    3. 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。,
  • 通过训练日志排查问题
    1. 通过日志判断出问题的代码范围。
    2. 修改代码,在问题代码段添加打印,输出更详细的日志信息。
    3. 再次运行作业,判断出问题的代码段。
support.huaweicloud.com/trouble-modelarts/modelarts_13_0075.html