云服务器内容精选

  • 自动诊断工具MA-Advisor简介 MA-Advisor是一款昇腾迁移性能问题自动诊断工具,当前支持如下场景的自动诊断: 推理场景下的子图数据调优分析,给出对应融合算子的调优建议。 推理、训练场景下对Profiling timeline单卡数据进行调优分析,给出相关亲和API替换的调优建议。 推理、训练场景下对Profiling单卡数据进行调优分析,给出AICPU相关调优建议。 推理、训练场景下对Profiling单卡数据进行调优分析,给出block dim、operator no bound相关AOE配置以及调优建议。 支持对昇腾训练、推理环境进行预检,完成相关依赖配置项的提前检查,并在检测出问题时给出相关修复建议。 自动诊断工具可以有效减少人工分析profiling的耗时,降低性能调优的门槛,帮助客户快速识别性能瓶颈点并完成性能优化。推荐用户在采集profiling分析后使用自动诊断工具进行初步性能调优。更进一步的性能调优再使用Ascend-Insight工具进行 数据可视化 并人工分析瓶颈点。 父主题: 自动诊断工具MA-Advisor使用指导
  • IndexPut算子替换 在tensor类型的赋值和切片操作时,会使用IndexPut算子执行,一般都在AICPU上执行,可以转换为等价的tensor操作转换到CUBE单元上执行。例如: masked_input[input_mask] = 01 建议替换为: masked_input *= ~input_mask 1 此处是将IndexPut的masked_input是float类型的tensor数据,input_mask是和masked_input shape 一致的bool类型tensor或者01矩阵。由于是赋0操作,所以先对input_mask 取反后再进行乘法操作。 以赋0操作为例,在shape = (512, 32, 64) 类型float32 数据上测试,替换前耗时: 9.639978408813477 ms,替换之后耗时为 0.1747608184814453 ms Profiling分析算子下发发现,替换前:总体耗时在9.902ms,Host下发到device侧执行5个算子,其中aclnnIndexPutImpl_IndexPut_IndexPut是执行在 AICPU上。 图3 替换前 替换后:总体耗时226.131us。下发三个执行算子,均执行在AI CORE上。 图4 替换后
  • ArgMin算子优化 ArgMin在CANN 6.3 RC2 版本上 算子下发到 AICPU执行,在 CANN 7.0RC1上下发到AI_CORE 上边执行。出现此类情形建议升级 CANN 包版本。 在 shape 大小是 (1024, 1024) 的 tensor 上测试,结果如下: CANN 6.3.RC2上,单算子执行时间 2.603 ms。 图5 单算子执行时间(CANN 6.3.RC2) CANN7.0 RC1上,单算子执行时间 223.516 us。 图6 单算子执行时间(CANN7.0 RC1)