AI开发平台ModelArts-显存溢出错误:解决方法:

时间:2025-02-12 15:14:12

解决方法:

  • 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。
  • 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加 TP和PP的值,一般TP×PP≤NPU数量,并且要被整除,具体调整值可参照表2进行设置。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_91067.html