AI开发平台MODELARTS-查看训练作业监控指标:场景介绍
场景介绍
在训练作业运行过程中,如果用户能在模型训练出问题(例如loss值异常)的情况下能收到告警并及时处理,可以节省大量时间和资源,避免无效运行作业导致的浪费。同时通过指标监控可以实时掌握训练作业的进度,了解模型在不同阶段的训练状态。
当前ModelArts Standard训练作业模块在训练作业详情页的“资源占用情况”页签中提供了训练作业占用的CPU、GPU或NPU资源使用情况,具体参见支持在ModelArts控制台上直接查看的监控指标。
除了在ModelArts控制台训练作业详情页可以查看训练作业的指标外,更多指标可以登录到 AOM 控制台查看,具体参见在AOM控制台查看ModelArts所有监控指标。
除此外,ModelArts还支持自定义一些指标信息采集上报到AOM系统,比如训练日志常见打印loss值、step耗时、gpu throughput等指标信息,方便观察指标变化趋势,或对比不同训练作业指标情况,具体参见自定义监控指标上报到AOM。