搜索_华为云

GPU加速型 - 弹性云服务器 ECS
GPU加速型 - 弹性云服务器 ECS

NVIDIA V100 NVLink （GPU直通） 5120 15.7TFLOPS 单精度浮点计算 7.8TFLOPS 双精度浮点计算 125TFLOPS Tensor Core 深度学习加速 300GiB/s NVLINK 机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码。

帮助中心 > 弹性云服务器 ECS > 产品介绍 > 实例类型和规格 > 实例规格（x86）
精度问题概述 - AI开发平台ModelArts

户自行或在支持下排查可能的数值计算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括： Loss曲线与CPU/GPU差异不符合预期。验证准确度与CPU/GPU差异不符合预期。在迁移到NPU环

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
精度问题处理 - AI开发平台ModelArts

精度问题处理设置高精度并重新转换模型在转换模型时，默认采用的精度模式是fp16，如果转换得到的模型和标杆数据的精度差异比较大，可以使用fp32精度模式提升模型的精度（精度模式并不总是需要使用fp32，因为相对于fp16，fp32的性能较差。因此，通常只在检测到某个模型精度存在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

精度校验转换模型后执行推理前，可以使用benchmark工具对MindSpore Lite云侧推理模型进行基准测试。它不仅可以对MindSpore Lite云侧推理模型前向推理执行耗时进行定量分析（性能），还可以通过指定模型输出进行可对比的误差分析（精度）。精度测试 benc

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
精度问题诊断 - AI开发平台ModelArts

得到和标杆数据相同的输出，因此可以判断出转换得到的text_encoder模型是产生pipeline精度误差的根因。通过下一小节可以进一步确认模型精度的差异。父主题：模型精度调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
精度调优总体思路 - AI开发平台ModelArts

精度达标，然后再恢复层数拉起多机训练。若单机精度正常但多机精度异常，有可能是多机通信造成的精度问题，此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致，如AllReduce、AllGather等，利用这一特性，工具将多机模型训练中产生的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
精度调优前准备工作 - AI开发平台ModelArts

模型的超参通常可能调整的主要有学习率、batch size、并行切分策略、学习率warm-up、模型参数、FA配置等。用户在进行NPU精度和GPU精度比对前，需要保证两边的配置一致。表1 超参说明超参说明学习率影响模型收敛程度，决定了模型在每次更新权重时所采用的步长。学习率过高，模型可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
精度对齐 - AI开发平台ModelArts
精度对齐 - AI开发平台ModelArts

精度对齐长训Loss比对结果使用Msprobe工具分析偏差 Loss对齐结果父主题： Dit模型PyTorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
模型精度调优 - AI开发平台ModelArts

模型精度调优场景介绍精度问题诊断精度问题处理父主题：基于AIGC模型的GPU推理业务迁移至昇腾指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
数据精度 - 成本中心
数据精度 - 成本中心

数据精度原始成本的数据精度和账单金额一致。摊销成本需要按照四舍五入进行保留小数，因此摊销成本会存在微小的精度差异：成本中心页面上展示的金额，均按照四舍五入规则，保留2位小数；导出的成本明细数据，会根据成本数据的原始精度，保留8位小数。需要进行分摊的数据包括：包年/包月的订单金额。

帮助中心 > 成本中心 > 用户指南 > 概述
PyTorch迁移精度调优 - AI开发平台ModelArts

PyTorch迁移精度调优精度问题概述精度调优总体思路精度调优前准备工作 msprobe精度分析工具使用指导父主题： GPU训练业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
msprobe精度分析工具使用指导 - AI开发平台ModelArts

msprobe精度分析工具使用指导 msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，其通过采集和对比标杆（GPU/CPU）环境和昇腾环境上运行训练时的差异点来判断问题所在，主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe工具介绍。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
msprobe精度比对 - AI开发平台ModelArts

msprobe精度比对精度比对功能主要针对两类场景的问题：同一模型，从CPU或GPU移植到NPU中存在精度下降问题，对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值，进行问题定位。同一模型，进行迭代（模型、框架版本升级或设备硬件升级）时存在的精度下降问题，

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
Dit模型PyTorch迁移与精度性能调优 - AI开发平台ModelArts

Dit模型PyTorch迁移与精度性能调优场景介绍及环境准备训练迁移适配精度对齐性能调优父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
长训Loss比对结果 - AI开发平台ModelArts

在单卡环境下，执行一个Epoch训练任务，GPU和NPU训练叠加效果如下：上图中的红色曲线为GPU Loss折线图，蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下，Loss总体的绝对偏差大约为0.08181。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
Loss对齐结果 - AI开发平台ModelArts

Loss对齐结果在排查完精度偏差来源之后发现，Loss最大绝对偏差减少为0.0003，Loss结果对齐。需要注意训练引入随机性的目的是为了增加结果的鲁棒性，理论上不会对训练模型的收敛与否造成影响。此处做随机性固定主要的目的是为了训练结果可完全复现，从而实现NPU和标杆的精度对齐。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
使用Msprobe工具分析偏差 - AI开发平台ModelArts

变量初始化引入精度偏差，在diffusion/gaussian_diffusion.py中用等CPU侧初始化实现替换完成计算之后再切回device进行计算(下图第731行)。然后再比对分析发现所有API计算都已对齐结果，转而查看Loss对齐情况。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

0.0版本中，Stable Diffusion的五个模型的精度都能够保证一致性，但是在最新的2.1.0版本中，会出现text_encoder模型精度不一致的情况。该问题后续会发布补丁进行修复。父主题：模型精度调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
训练迁移适配 - AI开发平台ModelArts

imagenet/train --global-batch-size 128 正常训练回显日志：父主题： Dit模型PyTorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
场景介绍及环境准备 - AI开发平台ModelArts

512×512和256×256的测试中，DiT-XL/2模型实现了2.27的FID值。下文以Dit模型为例，介绍如何在昇腾设备上如何进行模型迁移，精度及性能调优。环境准备迁移环境准备有以下两种方式：表1 迁移环境准备方式方式说明 ModelArts Notebook 该环境为在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优

总条数： 6231

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU加速型 - 弹性云服务器 ECS

精度问题概述 - AI开发平台ModelArts

精度问题处理 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

精度对齐 - AI开发平台ModelArts

模型精度调优 - AI开发平台ModelArts

数据精度 - 成本中心

PyTorch迁移精度调优 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

Dit模型PyTorch迁移与精度性能调优 - AI开发平台ModelArts

长训Loss比对结果 - AI开发平台ModelArts

Loss对齐结果 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练迁移适配 - AI开发平台ModelArts

场景介绍及环境准备 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线