AI开发平台ModelArts-OOM导致训练作业失败:问题现象

时间:2025-02-12 15:02:57

问题现象

因为OOM导致的训练作业失败,会有如下几种现象。
  1. 错误码返回137,如下图所示。
    Modelarts Service Log Trainina end with return code: 137Modelarts Service Log]handle outputs of training job
  2. 日志中有报错,含有“killed”相关字段,例如:
    RuntimeError: DataLoader worker (pid 38077) is killed by signal: Killed.
  3. 日志中有报错“RuntimeError: CUDA out of memory. ”,如下图所示:
    图1 错误日志信息
  4. Tensorflow引擎日志中出现“Dst tensor is not initialized”。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0044.html