搜索_华为云

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

install -r requirements.txt && /bin/sh run.sh 资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择所需GPU规格。计算节点个数：选择需要的节点个数。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导简介昇腾迁移快速入门案例迁移评估环境准备模型适配精度校验性能调优迁移过程使用工具概览常见问题推理业务迁移评估表父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
推理业务迁移评估表 - AI开发平台ModelArts

例如：使用了C83版本。 - 性能指标与预期例1：模型：YOLOv5 运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
迁移过程使用工具概览 - AI开发平台ModelArts

同步指令插入等。性能分析工具 msprof命令行工具提供了采集通用命令以及AI任务运行性能数据、昇腾AI处理器系统数据、Host侧系统数据和采集和解析能力。面向推理的场景，可以对于模型的执行性能数据进行收集，可基于收集的性能数据进行性能分析。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
迁移效果校验 - AI开发平台ModelArts

如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite pipeline输出的结果图片进行对比，在这里保证输入图片及文本提示词一致。如果差异较为明显可以进行模型精度调优。确认性能是否满足要求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

对MindSpore Lite云侧推理模型进行基准测试。它不仅可以对MindSpore Lite云侧推理模型前向推理执行耗时进行定量分析（性能），还可以通过指定模型输出进行可对比的误差分析（精度）。精度测试 benchmark工具用于精度验证，主要工作原理是：固定模型的输入，通

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
迁移环境准备 - AI开发平台ModelArts

Diffusion模型迁移到Ascend上进行推理。方式二 ModelArts Lite DevServer 该环境为裸机开发环境，主要面向深度定制化开发场景。优点：支持深度自定义环境安装，可以方便的替换驱动、固件和上层开发包，具有root权限，结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

通常为了获取更好的推理性能，推荐使用方式2的离线推理。下文将以Diffusers img2img onnx pipeline为示例来讲解如何进行离线推理模式下的昇腾迁移。迁移的整体流程如下图所示：图1 迁移流程图父主题：基于AIGC模型的GPU推理业务迁移至昇腾指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

了较优的精度和性能。如果用户业务同样使用这些开源模型，建议直接使用ModelArts提供的模型运行指导，其余场景再考虑使用本指导自行迁移和调优。迁移流程模型迁移主要指将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上，需要保证模型已经在CPU/GPU上运行成功。迁移到昇腾AI处理器的主要流程如下图所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 GPU训练业务迁移至昇腾的通用指导基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导基于advisor的昇腾训练性能自助调优指导 Dit模型PyTorch迁移与精度性能调优 msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

Diffusion新推出的模型在转换中可能会遇到算子不支持的问题，您可以到华为云管理页面上提交工单来寻求帮助。图片大Shape性能劣化严重怎么办？在昇腾设备上，可能由于GPU内存墙导致在大shape下遇到性能问题。MindSporeLite提供了Flash Attention编译优化机制，您可以考虑升级最新版本的MindSporeLite

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
精度问题概述 - AI开发平台ModelArts

能的数值计算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括： Loss曲线与CPU/GPU差异不符合预期。验证准确度与CPU/GPU差异不符合预期。在迁移到NPU环境下训练发现以上问题时

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

模型适配 MindSpore Lite是华为自研的推理引擎，能够最大化地利用昇腾芯片的性能。在使用MindSpore Lite进行离线推理时，需要先将模型转换为mindir模型，再利用MindSpore Lite作为推理引擎，将转换后的模型直接运行在昇腾设备上。模型转换需要使用converter_lite工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
应用迁移 - AI开发平台ModelArts
应用迁移 - AI开发平台ModelArts

应用迁移模型适配 pipeline代码适配父主题：基于AIGC模型的GPU推理业务迁移至昇腾指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
msprobe精度分析工具使用指导 - AI开发平台ModelArts

设置当前CPU的随机种子。 torch.cuda.manual_seed(seed) 设置当前GPU的随机种子。 torch.cuda.manual_seed_all(seed) 设置所有GPU的随机种子。 torch_npu.npu.manual_seed(seed) 设置当前NPU的随机种子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
精度问题处理 - AI开发平台ModelArts

的模型和标杆数据的精度差异比较大，可以使用fp32精度模式提升模型的精度（精度模式并不总是需要使用fp32，因为相对于fp16，fp32的性能较差。因此，通常只在检测到某个模型精度存在问题时，才会考虑是否使用fp32进行尝试）。使用fp32精度模式的配置文件如下：配置文件： #

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
MindSpore Lite问题定位指南 - AI开发平台ModelArts

Lite问题定位指南在MindSpore Lite使用中遇到问题时，例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等，您可以先查看日志信息进行定位分析。多数场景下的问题可以通过日

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？场景描述在使用ModelArts进行自定义深度学习训练时，训练数据通常存储在对象存储服务（OBS）中，且训练数据较大时（如200GB以上），每次都需要使用GPU资源池进行训练，且训练效率低。希望提升训练效率，同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

gputil import GPUtil as GPU GPU.showUtilization() import GPUtil as GPU GPUs = GPU.getGPUs() for gpu in GPUs: print("GPU RAM Free: {0:.0f}MB |

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook

总条数： 977

上一页
1
2
3
4
5
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

迁移效果校验 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

迁移环境准备 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

应用迁移 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

精度问题处理 - AI开发平台ModelArts

MindSpore Lite问题定位指南 - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线