AI开发平台MODELARTS-训练模式选择:模式说明

时间:2024-08-26 19:27:17

模式说明

训练作业默认设置为普通模式,普通模式的调测信息可参考查看训练作业日志

  • 高性能模式的使用场景:最小化调测信息,可以提升运行速度,适合于网络稳定并追求高性能的场景。
  • 故障诊断模式的使用场景:收集更多的信息用于定位,适合于执行出现问题需要收集故障信息进行定位的场景。此模式提供故障诊断,用户可以根据实际需求选择诊断类别。

各模式获取的调测信息如表1所示。

表1 MindSpore引擎各模式的调测信息

调测信息

普通模式

高性能模式

故障诊断模式

说明

MindSpore框架日志级别

Info级别

error级别

Info级别

MindSpore框架运行时日志。

RDR(Running Data Recorder)

关闭

关闭

开启

出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。

RDR详细的介绍请参考MindSpore官网说明

analyze_fail.dat

默认提供,上传至训练作业日志路径中

图编译失败自动导出故障信息,用于infer过程分析。

dump数据

默认提供,上传至训练作业日志路径中

后端执行期异常触发dump数据。

在故障诊断模式下,开启故障诊断功能后,支持用户查看以下故障诊断数据。以下数据存储至训练日志路径的OBS目录下。

故障诊断模式的训练输出日志文件说明:

{obs-log-path}/
    modelarts-job-{job-id}-worker-{index}.log # 在屏幕上显示日志(汇总)
    modelarts-job-{job-id}-proc-rank-{rank-id}-device-{device-id}.txt # 每个device的日志显示在屏幕上
    modelarts-job-{job-id}/
        ascend/
            npu_collect/rank_{id}/   # TFAdapter DUMP GRAPH 与 GE DUMP GRAPH 的输出路径,仅在使用TensorFlow框架时生成
            process_log/rank_{id}/   # Plog 日志路径
            msnpureport/{task-index}/  #msnpureport工具执行日志,用户无需关注
        mindspore/
            log/  # MindSpore 框架日志与 MindSpore 故障诊断数据
表2 故障诊断数据一览表(MindSpore)

故障诊断分类

故障诊断内容

CANN框架日志和故障诊断数据

HOST侧的INFO及INFO以上级别日志,包括HOST侧CANN软件桟日志、HOST侧驱动日志文件等。

MindSpore框架日志和故障诊断数据

MindSpore框架生成的日志,INFO及INFO以上级别日志。

RDR(Running Data Recorder)文件。

出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。

analyze_fail.dat,图编译失败自动导出故障信息,用于infer过程分析。

dump数据,后端执行期异常触发dump数据。

support.huaweicloud.com/develop-modelarts/develop-modelarts-0091.html