AI开发平台MODELARTS-查看诊断报告:overall模块介绍

时间:2025-03-12 09:40:17

overall模块介绍

  • 单卡overall summary

    下图展示了单卡上一个step的端到端耗时为1353ms,其中计算耗时(昇腾硬件上算子执行耗时)是57ms,未掩盖通信耗时为0ms,空闲耗时(硬件上没有进行计算和通信的其他时间)为1295ms。基于这三项数据可以初步判断当前训练任务的主要耗时瓶颈为空闲耗时。空闲耗时通常是任务下发(schedule)、数据加载(dataloader)和内存(memory)三个维度问题导致的,因此可以重点关注performance problem analysis中对应三个维度的分析。同理如果计算耗时占比较大,则应该重点关注计算维度的分析。

    图2 单卡性能拆解总体描述
    图3 单卡性能拆解详情
  • 多卡slow rank & slow link

    下图展示了多卡profiling分析的overall模块,包含集群快慢卡统计数值(slow rank,用于分析计算和任务下发的快慢卡)和集群带宽统计数值(slow link,用于分析集群中的网络通信慢链路)。点开slow rank模块,html中会基于表格展示每张卡不同step的计算耗时、通信耗时和空闲耗时。基于该表格,通常关注计算耗时(compute)和空闲耗时(free)这两列,可以初步分析当前瓶颈点是计算还是任务下发,以及是否存在计算快慢卡和下发快慢卡。如下图所示,可以看到8号卡的计算耗时明显大于其他卡,因此8号卡的“短板效应”将会拖慢集群的整体训练速度,后续性能分析需要重点关注8号卡的计算维度。

    图4 多卡不同step计算、下发和通信耗时统计值
    图5 多卡不同step通信带宽统计值
  • 环境变量Environment Variable Issues

    识别模型训练环境中设置的昇腾相关环境变量并给出建议。

    图6 环境变量分析
    表2 当前支持的环境变量

    环境变量名称

    释义

    ASCEND_GLOBAL_ LOG _LEVEL

    plog日志级别,推荐设置为2(warning级别),低级别日志等级会导致cpu侧性能问题。

    HCCL_RDMA_TC

    HCCL通信相关环境变量,通常无需设置该环境变量,建议unset该环境变量。具体参考拥塞控制与纠错配置策略

    HCCL_RDMA_SL

    HCCL通信相关环境变量,通常无需设置该环境变量,建议unset该环境变量。具体参考拥塞控制与纠错配置策略

    ACLNN_CACHE_LIMIT

    用于缓存cann侧的aclnn算子,当空闲时间(free)较大时,可以尝试设置一个较大的数值,如export ACLNN_CACHE_LIMIT=100000

    HOST_CACHE_CAPACITY

    用于动态shape缓存,当存在动态shape时,设置一个非零正整数,如export HOST_CACHE_CAPACITY=20

    ASCEND_ENHANCE_ENABLE

    使能HCCL的FFTS+模式,export ASCEND_ENHANCE_ENABLE=1

    PYTORCH_NPU_ALLOC_CONF

    控制缓存分配,当存在内存碎片时,执行export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

    ASCEND_LAUNCH_BLOCKING

    是否启动同步下发,同步下发会导致严重的性能劣化,建议执行unset ASCEND_LAUNCH_BLOCKING

support.huaweicloud.com/bestpractice-modelarts/modelarts_advisor_0005.html