AI开发平台MODELARTS-查看诊断报告:comparison模块介绍

时间：2025-03-12 09:40:17

AI开发平台MODELARTS

comparison模块介绍

当同时指定目标集群profiling和标杆集群profiling或者目标集群内部存在快慢卡时，advisor会针对计算和下发性能存在差异的卡（快慢卡）进行算子级的对比。

如下图所示，当分析时显式指定了标杆集群profiling数据，advisor识别到两次训练任务中0号卡的step12存在计算性能差异，则会对目标集群的0号卡step12与标杆集群的0号卡step12进行kernel（npu侧计算的算子）性能对比。基于该对比数据，可以判断两张卡上的npu算子是否存在计算性能差异。

图7 目标集群profiling数据与标杆集群profiling数据的kernel算子对比

如下图所示，当分析时显式指定了标杆集群profiling数据，advisor识别到两次训练任务中6号卡的step16存在api下发性能差异，对目标集群的6号卡step16与标杆集群的6号卡step16进行了api（cpu侧的torch aten算子任务下发）的性能对比。基于该对比数据，可以判断两张卡上的aten算子是否存在下发性能差异。

图8 目标集群profiling数据与标杆集群profiling数据的api下发对比