云服务器内容精选

华为云首页用户手册

PyTorch迁移性能调优

AI开发平台MODELARTS-其他性能分析工具

其他性能分析工具对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景，昇腾提供了性能比对工具compare_tools，通过对训练耗时和内存占用的比对分析，定位到具体劣化的算子，帮助用户提升性能调优的效率。工具将训练耗时拆分为计算、通信、调度三大维度，并针对计算和通信分别进行算子级别的比对；将训练占用的总内存，拆分成算子级别的内存占用进行比对。对于集群训练场景，昇腾提供了集群分析工具cluster_analysis，当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主，从而定位慢卡、慢节点以及慢链路问题。父主题： PyTorch迁移性能调优

AI开发平台MODELARTS PyTorch迁移性能调优
AI开发平台MODELARTS-性能调优总体原则和思路

性能调优总体原则和思路 PyTorch在昇腾AI处理器的加速实现方式是以算子为粒度进行调用（OP-based），即通过Python与C++调用CANN层接口Ascend Computing Language（AscendCL）调用一个或几个亲和算子组合的形式，代替原有GPU的实现方式，具体逻辑模型参考此处。在PyTorch模型迁移后进行训练的过程中，CPU只负责算子的下发，而NPU负责算子的执行，算子下发和执行异步发生，性能瓶颈在此过程中体现。在PyTorch的动态图机制下，算子被CPU逐个下发到NPU上执行。一方面，理想情况下CPU侧算子下发会明显比NPU侧算子执行更快，此时性能瓶颈主要集中在NPU侧；另一方面，理想情况下NPU侧算子计算流水线一直执行，不会出现NPU等待CPU算子下发即NPU空转的场景，如果存在，则CPU侧算子下发存在瓶颈。图1 Host算子下发和Device算子执行综上所述，性能优化的总体原则为：减少Host算子下发时间、减少Device算子执行时间。训练代码迁移完成后，如存在性能不达标的问题，可参考下图所示流程进行优化。建议按照单卡、单机多卡、多机多卡的流程逐步做性能调优。图2 性能调优总体思路为了便于用户快速进行迁移调优，降低调优门槛，ModelArts提供了MA-Adivisor性能自动诊断工具，用户采集性能profiling数据后，可通过该工具自动扫描profiling数据，工具分析完数据后会给出可能的性能问题点及调优建议，用户可以根据调优建议做相应的修改适配。目前该工具对CV类模型给出的调优建议较多，LLM类建议稍少，但是总体都有性能提升，实测大约可提升10%~30%的性能，并且已经在多个迁移性能调优项目中实际应用。父主题： PyTorch迁移性能调优

AI开发平台MODELARTS PyTorch迁移性能调优
AI开发平台MODELARTS-其他性能分析工具

其他性能分析工具对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景，昇腾提供了性能比对工具compare_tools，通过对训练耗时和内存占用的比对分析，定位到具体劣化的算子，帮助用户提升性能调优的效率。工具将训练耗时拆分为计算、通信、调度三大维度，并针对计算和通信分别进行算子级别的比对；将训练占用的总内存，拆分成算子级别的内存占用进行比对。对于集群训练场景，昇腾提供了集群分析工具cluster_analysis，当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主，从而定位慢卡、慢节点以及慢链路问题。父主题： PyTorch迁移性能调优

AI开发平台MODELARTS PyTorch迁移性能调优