云服务器内容精选

  • ModelArts昇腾迁移调优工具总览 ModelArts集成了多个昇腾迁移调优工具,方便您在ModelArts平台环境中进行训练推理迁移、精度调试、性能调优等工作,您可在下表中查看当前ModelArts支持的昇腾迁移调优工具及对应指导。 表格中的部分工具已集成到ModelArts基础镜像中(镜像地址详见基础镜像章节),若您使用的是ModelArts基础镜像,可先尝试直接使用工具命令,如果相关命令不存在则需要参考工具安装指导自行安装。 表1 ModelArts昇腾迁移调优工具总览表 使用场景 类别 工具名称 工具描述 工具安装 使用指导 PyTorch GPU训练迁移至PyTorch NPU训练 训练迁移 Transfer2NPU 代码自动迁移工具,通过简单import命令可将PyTorch训练脚本从GPU平台迁移至NPU平台运行。 包含在torch_npu包中。 自动迁移工具使用指导 训练业务代码适配昇腾PyTorch代码适配 PyTorch Analyse 迁移分析工具,可以使用工具扫描用户的训练脚本,识别出源码中不支持的torch API和cuda API信息。 包含在cann toolkit中。 分析工具使用指导 精度调试 api_accuracy_checker 精度API预检工具,能在昇腾NPU上扫描用户训练模型中所有API,输出单API级别的精度情况的诊断和分析。 下载工具源码使用。 Ascend模型精度预检工具 ptdbg_ascend 精度整网对比工具,可以对NPU整网数据进行dump并与GPU dump数据进行比较,输出整网的精度情况的诊断和分析。 支持模块级dump,可按模块级别做对比。 支持溢出检测功能,可检测API的溢出情况。 支持梯度监控功能,可辅助定位长训精度问题。 下载工具whl包安装使用,推荐使用最新版本。 PyTorch精度工具 性能调优 PyTorch Profiler 性能采集工具,在训练脚本中调用Ascend PyTorch Profiler接口,可在训练过程中采集性能数据文件,包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等。 包含在torch_npu包中。 Ascend PyTorch Profiler数据采集与分析 MA-Advisor 性能自动诊断工具,采集好的Profiling数据通过该工具进行自动扫描分析,可给出性能瓶颈的诊断和修改建议。当迁移开箱性能较低时,通过该工具给出的建议修改代码后,通常可提升10%~30%。 whl包,地址见教程中下载链接。 自动诊断工具MA-Advisor compare_tools 性能比对工具,将在GPU和NPU采集的Profiling数据进行性能拆解和分类比对,展示算子、通信、内存等类别的性能比对数据。 下载工具源码使用。 性能比对工具 cluster_analyse 集群性能分析工具,采集好的多机Profiling数据可通过该工具分析集群通信耗时、通信带宽矩阵等内容,从而辅助定位慢卡、慢节点等问题。工具的输出数据为csv格式,可直接拖入Ascend Insight进行可视化查看。 下载工具源码使用。 集群分析工具 Ascend Insight 性能可视化工具,采集好的profiling数据可通过该工具进行可视化展示,辅助人工进行profiling数据查看和分析。 windows版本工具,下载链接见教程内。 Ascend Insight用户指南 PyTorch GPU推理迁移至MindSpore Lite NPU推理 模型迁移 Tailor Mindspore-lite模型转换、精度误差分析、性能分析。 whl包,地址见教程中下载链接。 Tailor使用指导 性能调优 msprof msprof命令行工具提供了AI任务运行性能数据、昇腾AI处理器系统数据等性能数据的采集和解析能力。 包含在cann toolkit中。 msprof AOE 自动调优工具,提供子图调优和算子调优功能,在静态shape场景下有较好的调优效果。推荐在mindspore-lite离线推理场景下使用。 包含在cann toolkit中。 AOE性能自动调优 AKG MindSpore自动调优工具,提供算子自动优化和算子自动融合的功能,推荐在mindspore-lite离线推理场景下使用。 下载工具源码使用。 AKG PyTorch GPU推理迁移至PyTorch ascend-vllm /atb/torchair 推理 模型迁移 - 需要用户自行代码适配,或者使用ModelArts迁移好的模型。 - ModelArts迁移好的模型可参考最佳实践中的案例,使用AscendCloud软件包中的模型,例如:主流开源大模型基于DevServer适配PyTorch NPU推理指导。 模型量化 modelslim 模型量化工具,通过量化提升模型的推理性能。 包含在cann toolkit中。 ModelSlim 精度调试 ait llm 大模型精度调试工具,支持加速库(atb)和torchair的大模型推理的精度数据dump及比对功能,辅助大模型推理精度问题定位。 下载工具whl包安装使用,推荐使用最新版本。 大模型推理精度工具 父主题: GPU业务迁移至昇腾训练推理