搜索_华为云

监控GPU资源 - 华为云UCS
监控GPU资源 - 华为云UCS

监控GPU资源本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。前提条件完成GPU资源准备。当前本地集群已创建GPU资源。当前本地集群开启了监控能力。 GPU监控登录UCS控制台，在左侧导航栏选择“容器智能分析”。选择对应的集群并开启监控，详细操作请参照集群开启监控。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

" 迁移后应用出图效果相比GPU无法对齐怎么办？扩散模型在噪音和随机数上的生成，本身就有一定的随机性，GPU和NPU（Ascend）硬件由于存在一定细小的差别，很难确保完全一致，较难达成生成图片100%匹配，建议通过盲测的方式对效果进行验证。模型精度有问题怎么办？首先考虑通

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
准备工作 - CodeArts IDE Online
准备工作 - CodeArts IDE Online

Editor，可以在里面编辑和运行cell。父主题：基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

 帮助中心 > CodeArts IDE Online > 最佳实践 > 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

保证了较优的精度和性能。如果用户业务同样使用这些开源模型，建议直接使用ModelArts提供的模型运行指导，其余场景再考虑使用本指导自行迁移和调优。迁移流程模型迁移主要指将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上，需要保证模型已经在CPU/GPU上运行成功。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
GPU驱动异常怎么办？ - 弹性云服务器 ECS

处理方法如果未安装GPU驱动，请重新安装GPU驱动。操作指导请参考：安装GPU驱动如果已安装驱动，但是驱动被卸载。执行history，查看是否执行过卸载操作。进入/var/log目录，查看是否有nvidia-uninstall.log日志，如果有说明GPU驱动已被卸载，请重新安装GPU驱动。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
准备GPU资源 - 华为云UCS
准备GPU资源 - 华为云UCS

准备GPU资源本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。基础规划配置支持版本集群版本 v1.25.15-r7及以上操作系统华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
GPU设备显示异常 - 弹性云服务器 ECS

是，该驱动版本与镜像可能存在兼容性问题，建议更换驱动版本，操作指导，请参考安装GPU驱动。否，请执行下一步。请尝试重启云服务器，再执行nvidia-smi查看GPU使用情况，确认是否正常。如果问题依然存在，请联系客服。父主题： GPU驱动故障

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
MindSpore Lite问题定位指南 - AI开发平台ModelArts

MindSpore Lite问题定位指南在MindSpore Lite使用中遇到问题时，例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等，您可以先查看日志信息进行定位分析。多数场

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
创建和训练模型 - CodeArts IDE Online

epochs=10) 父主题：基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

 帮助中心 > CodeArts IDE Online > 最佳实践 > 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

昇腾规格规格名称描述 Ascend 1*ascend-snt9b|ARM 24核 192GB Snt9b单卡规格，配搭ARM处理器，适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像，其中包含了最新商用版驱动、昇腾软件开发库，迁移工具链等。预置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
GPU调度 - 华为云UCS
GPU调度 - 华为云UCS

GPU调度 GPU调度概述准备GPU资源创建GPU应用监控GPU资源父主题：管理本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群
训练作业找不到GPU - AI开发平台ModelArts

到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GP

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
推理业务迁移评估表 - AI开发平台ModelArts

例如：需要动态Shape，需要动态Shape的模型有ResNet-50、YOLOv5。 - 参数类型（FP32/FP16） FP32还是FP16混合，判断精度调优难度。例如：ResNet-50、YOLOv5模型使用FP16。BertLarge使用FP32。 - 模型变更频率模型变更场景如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
GPU驱动不可用 - 弹性云服务器 ECS

方法一：重新启动，选择安装GPU驱动时的内核版本，即可使用GPU驱动。在云服务器操作列下单击“远程登录 > 立即登录”。单击远程登录操作面板上方的“发送CtrlAltDel”按钮，重启虚拟机。然后快速刷新页面，按上下键，阻止系统继续启动，选择安装GPU驱动时的内核版本进入系统

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 GPU训练业务迁移至昇腾的通用指导基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导基于advisor的昇腾训练性能自助调优指导 Dit模型PyTorch迁移与精度性能调优 msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
如何配置Pod使用GPU节点的加速能力？ - 云容器引擎 CCE

如何配置Pod使用GPU节点的加速能力？问题描述我已经购买了GPU节点，但运行速度还是很慢，请问如何配置Pod使用GPU节点的加速能力。解答方案1：建议您将集群中GPU节点的不可调度的污点去掉，以便GPU插件驱动能够正常安装，同时您需要安装高版本的GPU驱动。如果您的集

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

在“GPU配置”中找到“节点池配置”，并选择新增的目标节点池。参考准备GPU虚拟化资源，选择满足GPU虚拟化要求的驱动，并开启支持GPU虚拟化。图1 异构资源配置单击“确认配置”进行保存。步骤三：创建GPU虚拟化负载并扩容参考使用GPU虚拟化章节，创建使用GPU虚拟化

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU实例故障处理流程 - 弹性云服务器 ECS

GPU实例故障处理流程 GPU实例故障处理流程如图1所示，对应的操作方法如下： CES监控事件通知：配置GPU的CES监控后会产生故障事件通知。故障信息收集：可使用GPU故障信息收集脚本一键收集，也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表：根据错误信息在故障分类列表中识别故障类型。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

计算公式：节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量字节显卡上容器显存使用总量 GPU卡-算力使用率百分比每张GPU卡的算力使用率计算公式：显卡上容器算力使用总量/显卡的算力总量 GPU卡-温度摄氏度每张GPU卡的温度 GPU-显存频率赫兹每张GPU卡的显存频率 GPU卡-PCle带宽

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
自定义镜像方式创建GPU函数 - 函数工作流 FunctionGraph

PU”，配置GPU参数。表1 GPU参数说明参数名称说明 GPU卡型当前仅支持NVIDIA-T4。 GPU规格（GB）支持1~16GB。图1 启用GPU 父主题：创建GPU函数

 帮助中心 > 函数工作流 FunctionGraph > 用户指南 > 创建函数 > 创建GPU函数

总条数： 6231

上一页
1
...
5
6
7
...
312
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

监控GPU资源 - 华为云UCS

常见问题 - AI开发平台ModelArts

准备工作 - CodeArts IDE Online

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

GPU驱动异常怎么办？ - 弹性云服务器 ECS

准备GPU资源 - 华为云UCS

GPU设备显示异常 - 弹性云服务器 ECS

MindSpore Lite问题定位指南 - AI开发平台ModelArts

创建和训练模型 - CodeArts IDE Online

环境准备 - AI开发平台ModelArts

GPU调度 - 华为云UCS

训练作业找不到GPU - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

GPU驱动不可用 - 弹性云服务器 ECS

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

如何配置Pod使用GPU节点的加速能力？ - 云容器引擎 CCE

GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

GPU实例故障处理流程 - 弹性云服务器 ECS

GPU视图 - 云容器引擎 CCE

自定义镜像方式创建GPU函数 - 函数工作流 FunctionGraph

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线