搜索_华为云

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

main_worker(args.gpu, ngpus_per_node, args) def main_worker(gpu, ngpus_per_node, args): global best_acc1 args.gpu = gpu if args.gpu is not

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
精度问题概述 - AI开发平台ModelArts

算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括： Loss曲线与CPU/GPU差异不符合预期。验证准确度与CPU/GPU差异不符合预期。在迁移到NPU环境下训练发现以上问题时，说明精度

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
msprobe精度分析工具使用指导 - AI开发平台ModelArts

设置当前CPU的随机种子。 torch.cuda.manual_seed(seed) 设置当前GPU的随机种子。 torch.cuda.manual_seed_all(seed) 设置所有GPU的随机种子。 torch_npu.npu.manual_seed(seed) 设置当前NPU的随机种子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提供了即开即用的云上集成开发环境，包含迁移所需要的算力资源、AI框架、昇腾开发套件以及迁移调优工具链，最大程度减少客户自行配置环境的复杂度。范围本文涉及PyTorch训练的单卡和分布式业务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
pipeline应用准备 - AI开发平台ModelArts

生成的图片fantasy_landscape.png会保存在当前路径下，该图片也可以作为后期精度校验的一个对比。图2 生成图片父主题：基于AIGC模型的GPU推理业务迁移至昇腾指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍本小节通过一个具体问题案例，介绍模型精度调优的过程。如下图所示，使用MindSpore Lite生成的图像和onnx模型的输出结果有明显的差异，因此需要对MindSpore Lite pipeline进行精度诊断。图1 结果对比在MindSpore Lite 2.0

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
在线调试 - 路网数字化服务 DRIS

帮助中心 > 路网数字化服务 DRIS > 快速入门 > 设备快速接入
使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标应用场景集群中包含GPU节点时，需要了解GPU应用使用节点GPU资源的情况，例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，或者根据GPU指标设置告警规则。本文基于开源Prometheus和DCGM

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
GPU实例故障自诊断 - 弹性云服务器 ECS

GPU实例故障自诊断 GPU实例故障，如果已安装GPU监控的CES Agent，当GPU服务器出现异常时则会产生事件通知，可以及时发现问题避免造成用户损失。如果没有安装CES Agent，只能依赖用户对故障的监控情况，发现故障后及时联系技术支持处理。 GPU实例故障处理流程 GPU实例故障分类列表

 帮助中心 > 弹性云服务器 ECS > 故障排除
精度问题处理 - AI开发平台ModelArts

精度问题处理设置高精度并重新转换模型在转换模型时，默认采用的精度模式是fp16，如果转换得到的模型和标杆数据的精度差异比较大，可以使用fp32精度模式提升模型的精度（精度模式并不总是需要使用fp32，因为相对于fp16，fp32的性能较差。因此，通常只在检测到某个模型精度存在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

模型适配 MindSpore Lite是华为自研的推理引擎，能够最大化地利用昇腾芯片的性能。在使用MindSpore Lite进行离线推理时，需要先将模型转换为mindir模型，再利用MindSpore Lite作为推理引擎，将转换后的模型直接运行在昇腾设备上。模型转换需要使用converter_lite工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错问题原因 XID 说明 32 Invalid or corrupted push buffer stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动，尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化，我们将及时跟进帮助您升级修复。如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动，请参考上图确认您安装的GPU驱动是否受该漏洞影响。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
精度调优前准备工作 - AI开发平台ModelArts

ython三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。此外，问题定位主要基于GPU环境和NPU环境上运行的过程数据做对比，所以需要分别准备GPU和NPU训练环境，大部分场景需要规模相同的训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 GPU训练业务迁移至昇腾的通用指导基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导基于advisor的昇腾训练性能自助调优指导 Dit模型PyTorch迁移与精度性能调优 msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
删除在线服务 - 推荐系统 RES
删除在线服务 - 推荐系统 RES

删除在线服务功能介绍删除在线服务实例。调试您可以在API Explorer中调试该接口。 URI DELETE /v2.0/{project_id}/workspaces/{workspace_id}/resources/{resource_id}/service-instance/{job_id}

帮助中心 > 推荐系统 RES > API参考 > API > 在线服务
使用Tensorflow训练神经网络 - 云容器实例 CCI

rfile文件内容： FROM tensorflow/tensorflow:1.15.0-gpu ADD gpu-demo /home/project/gpu-demo 其中ADD将gpu-demo工程拷贝到镜像的/home/project目录下，可以根据自己需要修改。执行docker

帮助中心 > 云容器实例 CCI > 最佳实践 > GPU负载
在线订购 - CloudPond云服务
在线订购 - CloudPond云服务

在线订购操作场景根据实际业务需求，为边缘小站选择合适的计算和存储资源，确认价格并下单。请通过产品规格，提前了解计算和存储资源的详细规格。更多关于CloudPond服务的计费项和付费方式，请参见计费说明。前提条件已完成边缘小站注册。操作步骤登录管理控制台。单击管理控制台左上角的“”，选择区域。

帮助中心 > CloudPond云服务 > 快速入门
基于MindSpore Lite的模型转换 - AI开发平台ModelArts

基于MindSpore Lite的模型转换迁移推理业务的整体流程如下：模型准备转换关键参数准备模型转换推理应用适配主要通过MindSpore Lite（简称MSLite）进行模型的转换，进一步通过MindSpore Runtime支持昇腾后端的能力来将推理业务运行到昇腾设备上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配

总条数： 6179

上一页
1
...
5
6
7
...
309
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在线调试 - 路网数字化服务 DRIS

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

GPU实例故障自诊断 - 弹性云服务器 ECS

精度问题处理 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

精度调优前准备工作 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

删除在线服务 - 推荐系统 RES

使用Tensorflow训练神经网络 - 云容器实例 CCI

在线订购 - CloudPond云服务

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线