搜索_华为云

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 GPU训练业务迁移至昇腾的通用指导基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导基于advisor的昇腾训练性能自助调优指导 Dit模型PyTorch迁移与精度性能调优 msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
动态shape - AI开发平台ModelArts
动态shape - AI开发平台ModelArts

在某些推理场景中，模型输入的shape可能是不固定的，因此需要支持用户指定模型的动态shape，并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题，因为CPU算子支持动态shape；而在Ascend场景上，算子需要指定具体的shape信息，并且在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 advisor调优总体步骤创建诊断任务查看诊断报告父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
Profiling数据采集 - AI开发平台ModelArts

Profiling数据采集在train.py的main()函数Step迭代处添加配置，添加位置如下图所示：此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。更多信息，请参见Ascend PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍本小节通过一个具体问题案例，介绍模型精度调优的过程。如下图所示，使用MindSpore Lite生成的图像和onnx模型的输出结果有明显的差异，因此需要对MindSpore Lite pipeline进行精度诊断。图1 结果对比在MindSpore Lite 2.0

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
MindSpore Lite问题定位指南 - AI开发平台ModelArts

进行定位分析。多数场景下的问题可以通过日志报错信息直接定位。如果日志的信息不能定位问题，您可以通过设置环境变量调整日志等级，打印更多调试日志。关于如何对MindSpore Lite遇到的问题进行定位与解决，请参见MindSpore Lite官网提供的问题定位指南。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
用户名密码认证模式 - AI开发平台ModelArts

用户名密码认证模式本模式支持OBS管理、训练管理、模型管理、服务管理的鉴权。示例代码账号与用户的概念介绍，请参见IAM基本概念。获取您的账号、用户名等信息，请参见获取用户名、用户ID、项目名称、项目ID。使用账号认证 “username”填写您的账号名。 1 2 from

帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
长训Loss比对结果 - AI开发平台ModelArts

在单卡环境下，执行一个Epoch训练任务，GPU和NPU训练叠加效果如下：上图中的红色曲线为GPU Loss折线图，蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下，Loss总体的绝对偏差大约为0.08181。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
下载代码目录失败 - AI开发平台ModelArts

获取内容失败原因分析在创建训练作业时指定的代码目录不存在导致训练失败。处理方法请您根据报错原因排查创建训练作业时指定的代码目录，即OBS桶的路径是否正确。有两种方法判断是否存在。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件是否存在。通过接口判断

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
无法导入模块 - AI开发平台ModelArts

xxx”的报错，可以判断是环境中没有包含用户依赖的python包。处理方法训练作业导入模块时日志出现前两条报错信息，处理方法如下：首先保证被导入的module中有“__init__.py”存在，创建“module_dir”的“__init__.py”，如原因分析中的结构所示。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
套餐包 - AI开发平台ModelArts
套餐包 - AI开发平台ModelArts

要，自行购买适用规格的套餐包。适用场景 ModelArts服务支持购买套餐包，根据用户选择使用的资源不同进行收费。您可以根据业务需求选择使用不同规格的套餐包。 ModelArts提供了AI全流程开发的套餐包，面向有AI基础的开发者，提供机器学习和深度学习的算法开发及部署全功能，

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
日志提示Compile graph failed - AI开发平台ModelArts

日志提示Compile graph failed 问题现象日志提示：Compile graph failed。图1 报错提示原因分析模型转换时未指定Ascend后端。处理方法需要在模型转换阶段指定“--device=Ascend”。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
精度问题诊断 - AI开发平台ModelArts

逐个替换模型，检测有问题的模型该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。图1 精度诊断流程

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
创建诊断任务 - AI开发平台ModelArts

advisor分析进程数，可选范围为1-8的任意整数。当LLM类模型训练的流水并行参数pp大于1时，advisor会对不同pp stage的训练profilingg数据进行分析。通过设置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
调优前后性能对比 - AI开发平台ModelArts

调优前后性能对比在完成上一章几类调优方式之后，在单卡场景下实测性能调优比对结果如下表所示：设备 batch_size Steps/Sec 1p-GPU Ant8 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
单模型性能调优AOE - AI开发平台ModelArts

--loopCount=100 图1 调优前模型图2 调优后模型 AOE优化成功的mindir已经融合了优化的知识库，是一个独立可用的模型。即使AOE知识库删除，不影响该mindir的性能。可以备份这个模型优化产生的知识库，以后需要的话再使用。父主题：性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

ts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” - AI开发平台ModelArts

attribute 'concat'。原因分析出现该问题的可能原因如下：对应python包使用错误，该python包确实没有对应的变量或者方法第三方pip源中的python包版本更新，导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题，后面一直有此问题，则考虑是此原因。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
按需计费 - AI开发平台ModelArts
按需计费 - AI开发平台ModelArts

按需计费是一种先使用再付费的计费模式，适用于无需任何预付款或长期承诺的用户。本文将介绍按需计费资源的计费规则。适用场景按需计费适用于资源需求波动的场景，例如面向ToC业务的AIGC推理场景，客户业务量会随时间有规律的波动，按需计费模式能大幅降低客户的业务成本。可在运行自动学习

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
msprobe API预检 - AI开发平台ModelArts

或者对模型了解不多的情形下都推荐使用预检工具，检查第一个步骤或Loss明显出现问题的步骤。它可以抓取模型中API输入的数值范围，根据范围随机生成输入，用相同的输入分别在NPU（GPU）和CPU上执行算子，比较输出差异。预检最大的好处是，它能根据算子（API）的精度标准来比较输出结

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导

总条数： 1511

上一页
1
2
3
4
5
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

动态shape - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

Profiling数据采集 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

MindSpore Lite问题定位指南 - AI开发平台ModelArts

用户名密码认证模式 - AI开发平台ModelArts

长训Loss比对结果 - AI开发平台ModelArts

下载代码目录失败 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

套餐包 - AI开发平台ModelArts

日志提示Compile graph failed - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

调优前后性能对比 - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '' has no attribute ''” - AI开发平台ModelArts

按需计费 - AI开发平台ModelArts

msprobe API预检 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线