AI开发平台MODELARTS-训练模式选择:模式说明
模式说明
训练作业默认设置为普通模式,普通模式的调测信息可参考查看训练作业日志。
- 高性能模式的使用场景:最小化调测信息,可以提升运行速度,适合于网络稳定并追求高性能的场景。
- 故障诊断模式的使用场景:收集更多的信息用于定位,适合于执行出现问题需要收集故障信息进行定位的场景。此模式提供故障诊断,用户可以根据实际需求选择诊断类别。
各模式获取的调测信息如表1所示。
调测信息 |
普通模式 |
高性能模式 |
故障诊断模式 |
说明 |
---|---|---|---|---|
MindSpore框架日志级别 |
Info级别 |
error级别 |
Info级别 |
MindSpore框架运行时日志。 |
RDR(Running Data Recorder) |
关闭 |
关闭 |
开启 |
出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。 RDR详细的介绍请参考MindSpore官网说明。 |
analyze_fail.dat |
默认提供,上传至训练作业日志路径中 |
图编译失败自动导出故障信息,用于infer过程分析。 |
||
dump数据 |
默认提供,上传至训练作业日志路径中 |
后端执行期异常触发dump数据。 |
在故障诊断模式下,开启故障诊断功能后,支持用户查看以下故障诊断数据。以下数据存储至训练日志路径的OBS目录下。
故障诊断模式的训练输出日志文件说明:
{obs-log-path}/ modelarts-job-{job-id}-worker-{index}.log # 在屏幕上显示日志(汇总) modelarts-job-{job-id}-proc-rank-{rank-id}-device-{device-id}.txt # 每个device的日志显示在屏幕上 modelarts-job-{job-id}/ ascend/ npu_collect/rank_{id}/ # TFAdapter DUMP GRAPH 与 GE DUMP GRAPH 的输出路径,仅在使用TensorFlow框架时生成 process_log/rank_{id}/ # Plog 日志路径 msnpureport/{task-index}/ #msnpureport工具执行日志,用户无需关注 mindspore/ log/ # MindSpore 框架日志与 MindSpore 故障诊断数据
故障诊断分类 |
故障诊断内容 |
---|---|
CANN框架日志和故障诊断数据 |
HOST侧的INFO及INFO以上级别日志,包括HOST侧CANN软件桟日志、HOST侧驱动日志文件等。 |
MindSpore框架日志和故障诊断数据 |
MindSpore框架生成的日志,INFO及INFO以上级别日志。 |
RDR(Running Data Recorder)文件。 出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。 |
|
analyze_fail.dat,图编译失败自动导出故障信息,用于infer过程分析。 |
|
dump数据,后端执行期异常触发dump数据。 |
- 磁盘模式是什么意思_磁盘vbd和scsi磁盘模式区别_磁盘模式怎么调整
- ModelArts计费说明_计费简介_ModelArts怎么计费
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- 设备接入IOTDA平台可以用哪些模式
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts是什么_AI开发平台_ModelArts功能
- OBS对象存储费用_对象存储收费_对象存储计费模式
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- 视频营销_视频短信_视频营销模式有哪些_智能制造_信息化管理