华为云首页用户手册

AI开发平台MODELARTS-查看诊断报告:overall模块介绍

时间：2025-03-12 09:40:17

AI开发平台MODELARTS

overall模块介绍

单卡overall summary
下图展示了单卡上一个step的端到端耗时为1353ms，其中计算耗时（昇腾硬件上算子执行耗时）是57ms，未掩盖通信耗时为0ms，空闲耗时（硬件上没有进行计算和通信的其他时间）为1295ms。基于这三项数据可以初步判断当前训练任务的主要耗时瓶颈为空闲耗时。空闲耗时通常是任务下发(schedule)、数据加载(dataloader)和内存(memory)三个维度问题导致的，因此可以重点关注performance problem analysis中对应三个维度的分析。同理如果计算耗时占比较大，则应该重点关注计算维度的分析。

图2 单卡性能拆解总体描述

图3 单卡性能拆解详情
多卡slow rank & slow link
下图展示了多卡profiling分析的overall模块，包含集群快慢卡统计数值(slow rank，用于分析计算和任务下发的快慢卡)和集群带宽统计数值(slow link，用于分析集群中的网络通信慢链路)。点开slow rank模块，html中会基于表格展示每张卡不同step的计算耗时、通信耗时和空闲耗时。基于该表格，通常关注计算耗时(compute)和空闲耗时(free)这两列，可以初步分析当前瓶颈点是计算还是任务下发，以及是否存在计算快慢卡和下发快慢卡。如下图所示，可以看到8号卡的计算耗时明显大于其他卡，因此8号卡的“短板效应”将会拖慢集群的整体训练速度，后续性能分析需要重点关注8号卡的计算维度。

图4 多卡不同step计算、下发和通信耗时统计值

图5 多卡不同step通信带宽统计值

环境变量Environment Variable Issues

识别模型训练环境中设置的昇腾相关环境变量并给出建议。

图6 环境变量分析

表2 当前支持的环境变量
环境变量名称	释义
ASCEND_GLOBAL_ LOG _LEVEL	plog日志级别，推荐设置为2（warning级别），低级别日志等级会导致cpu侧性能问题。
HCCL_RDMA_TC	HCCL通信相关环境变量，通常无需设置该环境变量，建议unset该环境变量。具体参考拥塞控制与纠错配置策略
HCCL_RDMA_SL	HCCL通信相关环境变量，通常无需设置该环境变量，建议unset该环境变量。具体参考拥塞控制与纠错配置策略
ACLNN_CACHE_LIMIT	用于缓存cann侧的aclnn算子，当空闲时间（free）较大时，可以尝试设置一个较大的数值，如export ACLNN_CACHE_LIMIT=100000
HOST_CACHE_CAPACITY	用于动态shape缓存，当存在动态shape时，设置一个非零正整数，如export HOST_CACHE_CAPACITY=20
ASCEND_ENHANCE_ENABLE	使能HCCL的FFTS+模式，export ASCEND_ENHANCE_ENABLE=1
PYTORCH_NPU_ALLOC_CONF	控制缓存分配，当存在内存碎片时，执行export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
ASCEND_LAUNCH_BLOCKING	是否启动同步下发，同步下发会导致严重的性能劣化，建议执行unset ASCEND_LAUNCH_BLOCKING