检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
failed 问题现象 日志提示:Compile graph failed。 图1 报错提示 原因分析 模型转换时未指定Ascend后端。 处理方法 需要在模型转换阶段指定“--device=Ascend”。 父主题: 常见问题
ini [ascend_context] precision_mode=enforce_fp32 # 使用fp32。 其他方式 需要实际分析算子层面的差异,需要联系华为工程师进行具体分析。 父主题: 模型精度调优
Loss对齐结果 在排查完精度偏差来源之后发现,Loss最大绝对偏差减少为0.0003,Loss结果对齐。 需要注意训练引入随机性的目的是为了增加结果的鲁棒性,理论上不会对训练模型的收敛与否造成影响。 此处做随机性固定主要的目的是为了训练结果可完全复现,从而实现NPU和标杆的精度对齐。
1GB。该数据集是从[imagenet-2012]数据集中筛选的少量数据集。 准备预训练权重。 下载Hugging Face权重。 迁移适配。 入口函数train.py导入自动迁移接口。 执行以下命令,导入自动迁移接口。 import torch_npu from torch_npu.contrib import
本小节通过一个具体问题案例,介绍模型精度调优的过程。 如下图所示,使用MindSpore Lite生成的图像和onnx模型的输出结果有明显的差异,因此需要对MindSpore Lite pipeline进行精度诊断。 图1 结果对比 在MindSpore Lite 2.0.0版本中,Stable
应用迁移 模型适配 pipeline代码适配 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
PyTorch迁移精度调优 引言 精度校验 精度调优总体思路 准备工作 问题复现 父主题: GPU训练业务迁移至昇腾的通用指导
ResNet50模型迁移到Ascend上进行推理 Stable Diffusion模型迁移到Ascend上进行推理:介绍如何将Stable Diffusion模型通过MSLite进行转换后,迁移在昇腾设备上运行。 图3 Stable Diffusion模型迁移到Ascend上进行推理
pipeline应用准备 当前迁移路径是从ONNX模型转换到MindIR模型,再用MindSpore Lite做推理, 所以迁移前需要用户先准备好自己的ONNX pipeline。下文以官方开源的图生图的Stable Diffusion v1.5的onnx pipeline代码为例进行说明。
练阶段Loss层面引入误差;再者,模型本身的算法设计过程也可能会引入不收敛情况;最后,则是不符合预期的计算或者通信导致的模型收敛问题。 在迁移流程中,一般已经有模型训练的标杆,因此主要关注昇腾软件栈引入的精度偏差即可。由于昇腾芯片和GPU芯片的架构差异(包括不同架构下的GPU芯片
迁移环境准备 迁移环境准备有以下两种方式: 表1 方式说明 序号 名称 说明 方式一 ModelArts Notebook 该环境为在线调试环境,主要面向演示、体验和快速原型调试场景。 优点:可快速、低成本地搭建环境,使用标准化容器镜像,官方Notebook示例可直接运行。 缺点
PyTorch迁移性能调优 性能调优总体原则和思路 MA-Advisor和Ascend-Insigh工具使用指导 性能可视化工具与性能分析工具 父主题: GPU训练业务迁移至昇腾的通用指导
构造相应的API单元测试,将NPU输出与标杆比对,从而检测出精度有差异的API。更多介绍请参考Msprobe工具离线预检和在线预检介绍。 父主题: PyTorch迁移精度调优
Language(AscendCL)调用一个或几个亲和算子组合的形式,代替原有GPU的实现方式,具体逻辑模型请参考PyTorch自动迁移。 在PyTorch模型迁移后进行训练的过程中,CPU只负责算子的下发,而NPU负责算子的执行,算子下发和执行异步发生,性能瓶颈在此过程中体现。在PyT
GPU训练业务迁移至昇腾的通用指导 训练业务迁移到昇腾设备场景介绍 训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优 训练网络迁移总结 父主题: GPU业务迁移至昇腾训练推理
s,当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主,从而定位慢卡、慢节点以及慢链路问题。 父主题: PyTorch迁移性能调优
Manifest管理概述 在ModelArts使用过程中,需要做数据标注、模型训练、推理、数据集管理、市场发布等业务,这些业务都基于数据集进行的。为了规范对数据集的使用,适配各个使用场景,同时兼顾数据集管理的灵活性,本文档描述数据集管理的接口和描述规范——Manifest文件。
Msprobe梯度监控 梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具,可以实现对训练过程模型每一层梯度信息进行监控,目前支持两种能力: 将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监
依赖环境,因此可以将已经调测完成的开发环境保存成一个镜像,选择“Notebook>更多>保存镜像”。此时Notebook会冻结,需要等待几分钟(只需要保存一次)。 保存后的镜像可以在“ModelArts>镜像管理”中进行查看,对应完整的镜像名称为“详情->SWR地址”。 图20 查看保存后的镜像
GPU推理业务迁移至昇腾的通用指导 简介 昇腾迁移快速入门案例 迁移评估 环境准备 模型适配 精度校验 性能调优 迁移过程使用工具概览 常见问题 推理业务迁移评估表 父主题: GPU业务迁移至昇腾训练推理