搜索_华为云

精度调优前准备工作 - AI开发平台ModelArts

常见的超参如下图所示：图1 训练超参数模型的超参通常可能调整的主要有学习率、batch size、并行切分策略、学习率warm-up、模型参数、FA配置等。用户在进行NPU精度和GPU精度比对前，需要保证两边的配置一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优

使用Tensorflow训练神经网络 - 云容器实例 CCI

本文将演示在云容器实例中创建GPU类型的负载，以tensorflow的图像分类为示例，演示在容器中直接使用GPU训练一个简单的神经网络。

帮助中心 > 云容器实例 CCI > 最佳实践 > GPU负载

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

图1 netron中查看inputShape 精度选择。精度选择需要在模型转换阶段进行配置，执行converter_lite命令时通过--configFile参数指定配置文件路径，配置文件通过precision_mode参数指定精度模式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配

MindSpore Lite问题定位指南 - AI开发平台ModelArts

MindSpore Lite问题定位指南在MindSpore Lite使用中遇到问题时，例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等，您可以先查看日志信息进行定位分析

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

NVLink异常产生的XID，表明GPU硬件故障需要下线维修。 79 GPU has fallen off the bus。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动，请参考上图确认您安装的GPU驱动是否受该漏洞影响。如何确认GPU节点的NVIDIA驱动版本登录到您的GPU节点，执行如下命令，即可查看驱动版本。 [root@XXX36 bin]# .

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告

GPU插件检查异常处理 - 云容器引擎 CCE

GPU插件检查异常处理检查项内容检查到本次升级涉及GPU插件，可能影响新建GPU节点时GPU驱动的安装。解决方案由于当前GPU插件的驱动配置由您自行配置，需要您验证两者的兼容性。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件介绍 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

父主题：基于ModelArts Standard运行GPU训练作业

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业

精度调优总体思路 - AI开发平台ModelArts

图1 精度调优流程父主题： PyTorch迁移精度调优

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优

msprobe精度分析工具使用指导 - AI开发平台ModelArts

具体示例如下：由上图可见，torch.randn在GPU和NPU上固定随机种子后，仍然生成不同的随机张量。对于上述场景，用户需要将网络中的randn在CPU上完成后再转到对应device。例如，StableDiffusion中需要在forward过程中逐步生成随机噪声。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优

gpu-device-plugin - 华为云UCS

图5 获取链接相关链接 GPU插件及驱动相关问题的排查思路工作负载异常：GPU相关 GPU调度父主题：插件管理

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 插件管理

场景介绍 - AI开发平台ModelArts

如下图所示，使用MindSpore Lite生成的图像和onnx模型的输出结果有明显的差异，因此需要对MindSpore Lite pipeline进行精度诊断。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

如下图，可以看到GPU节点上的GPU利用率以及其他相关指标，更多GPU指标请参见可观测指标。登录Grafana页面查看GPU信息如您安装了Grafana，您可通过导入NVIDIA DCGM Exporter Dashboard来展示gpu的相关指标信息。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控

精度问题处理 - AI开发平台ModelArts

精度问题处理设置高精度并重新转换模型在转换模型时，默认采用的精度模式是fp16，如果转换得到的模型和标杆数据的精度差异比较大，可以使用fp32精度模式提升模型的精度（精度模式并不总是需要使用fp32，因为相对于fp16，fp32的性能较差。因此，通常只在检测到某个模型精度存在问题时

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优

linux查看GPU配置

显存占用和GPU占用是两个不一样的东西，显卡是由GPU和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。我跑caffe代码的时候显存占得少，GPU占得多，师弟跑TensorFlow代码的时候，显存占得多，GPU占得少。

开发者 > 博客

作者： irrational

发表时间： 2022-02-06 16:17:42

1577

0

作者：人类群星闪耀时

发表时间： 2022-07-04 01:51:11

375

0

精度调优前准备工作 - AI开发平台ModelArts

使用Tensorflow训练神经网络 - 云容器实例 CCI

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

MindSpore Lite问题定位指南 - AI开发平台ModelArts

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

GPU插件检查异常处理 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

gpu-device-plugin - 华为云UCS

场景介绍 - AI开发平台ModelArts

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

精度问题处理 - AI开发平台ModelArts

linux查看GPU配置

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU实例故障自诊断 - 弹性云服务器 ECS

性能调优总体原则和思路 - AI开发平台ModelArts

tensorflow安装GPU版本

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线