搜索_华为云

使用GPU虚拟化 - 云容器引擎 CCE

使用GPU虚拟化本文介绍如何使用GPU虚拟化能力实现算力和显存隔离，高效利用GPU设备资源。前提条件已完成GPU虚拟化资源准备。如果您需要通过命令行创建，需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。约束与限制单个GPU卡最多虚拟化成20个GPU虚拟设备。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
安装并配置GPU驱动 - 智能边缘平台 IEF

安装并配置GPU驱动背景信息对于使用GPU的边缘节点，在纳管边缘节点前，需要安装并配置GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU，支持CUDA Toolkit 8.0至10.0版本对应的驱动。操作步骤安装GPU驱动。下载GPU驱动，推荐驱动链接：

帮助中心 > 智能边缘平台 IEF > 用户指南 > 专业版操作指南 > 节点管理
安装并配置GPU驱动 - 智能边缘平台 IEF

安装并配置GPU驱动背景信息对于使用GPU的边缘节点，在纳管边缘节点前，需要安装并配置GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU，支持CUDA Toolkit 8.0至10.0版本对应的驱动。操作步骤安装GPU驱动。下载GPU驱动，推荐驱动链接：

帮助中心 > 智能边缘平台 IEF > 用户指南 > 铂金版操作指南 > 节点管理
手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

本节操作介绍GPU云服务器安装Tesla驱动及CUDA工具包的操作步骤。当前已支持使用自动化脚本安装GPU驱动，建议优先使用自动安装方式，脚本获取以及安装指导请参考（推荐）自动安装GPU加速型ECS的GPU驱动（Linux）和（推荐）自动安装GPU加速型ECS的GPU驱动（Windows）。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理GPU加速型ECS的GPU驱动
准备工作 - CodeArts IDE Online
准备工作 - CodeArts IDE Online

），打开该文件后会出现一个Notebook Editor，可以在里面编辑和运行cell。父主题：基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

 帮助中心 > CodeArts IDE Online > 最佳实践 > 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
监控GPU资源指标 - 云容器引擎 CCE

监控了哪些目标。图2 查看监控目标监控GPU指标创建一个使用GPU的工作负载，等工作负载正常运行后，访问Prometheus，在“Graph”页面中，查看GPU指标。关于GPU指标详情请参见GPU监控指标说明。图3 查看GPU监控指标访问Grafana Prometh

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
准备GPU资源 - 华为云UCS
准备GPU资源 - 华为云UCS

54.03版本的GPU驱动。容器运行时 containerd 插件集群中需要同时安装以下插件： volcano插件：1.10.1及以上版本 gpu-device-plugin插件：2.0.0及以上版本步骤一：纳管并标记GPU节点如果您的集群中已有符合基础规划的GPU节点，您可以跳过此步骤。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
GPU驱动不可用 - 弹性云服务器 ECS

方法一：重新启动，选择安装GPU驱动时的内核版本，即可使用GPU驱动。在云服务器操作列下单击“远程登录 > 立即登录”。单击远程登录操作面板上方的“发送CtrlAltDel”按钮，重启虚拟机。然后快速刷新页面，按上下键，阻止系统继续启动，选择安装GPU驱动时的内核版本进入系统

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
训练迁移快速入门案例 - AI开发平台ModelArts

导的讨论范围中。已完成迁移环境准备，且代码、预训练模型、数据等训练必需内容已经上传到环境中。约束和限制安装插件后，大部分能力能够对标在GPU上的使用，但并不是所有行为和GPU上是一一对应的。例如在torch_npu下，当PyTorch版本低于2.1.0时，一个进程只能操作一

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
定制运行时方式创建GPU函数 - 函数工作流 FunctionGraph

定制运行时函数创建完成后，在函数代码配置页面，选择“设置->常规设置”，单击“启用GPU”，配置GPU参数。表1 GPU参数说明参数名称说明 GPU卡型当前仅支持NVIDIA-T4。 GPU规格（GB）支持1~16GB。图1 启用GPU 父主题：创建GPU函数

 帮助中心 > 函数工作流 FunctionGraph > 用户指南 > 创建函数 > 创建GPU函数
创建和训练模型 - CodeArts IDE Online

train_labels, epochs=10) 父主题：基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

 帮助中心 > CodeArts IDE Online > 最佳实践 > 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
选择GPU节点驱动版本 - 云容器引擎 CCE

选择GPU节点驱动版本使用GPU加速型云服务器时，需要安装正确的Nvidia基础设施软件，才可以使用GPU实现计算加速功能。在使用GPU前，您需要根据GPU型号，选择兼容配套软件包并安装。本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。如何选择GPU节点驱动版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

1*ascend-snt9b|ARM 24核 192GB Snt9b单卡规格，配搭ARM处理器，适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像，其中包含了最新商用版驱动、昇腾软件开发库，迁移工具链等。预置镜像可以做到即开即用，用户也可以基于预置镜像构建自定义环境内容。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和DCGM Exporter实现丰富的GPU观测场景，常用指标请参见GPU监控指标

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU监控指标说明 - 云容器引擎 CCE

Gauge Byte GPU卡 GPU bar1 内存使用量 cce_gpu_bar1_memory_total Gauge Byte GPU卡 GPU bar1 内存总量频率 cce_gpu_clock Gauge MHz GPU卡 GPU时钟频率 cce_gpu_memory_clock

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU调度概述工作负载支持使用节点GPU资源，GPU资源使用可以分为如下两种模式： GPU静态分配（共享/独享）：按比例给Pod分配GPU显卡资源，支持独享（分配单张/多张显卡）和共享（部分显卡）方式。 GPU虚拟化：UCS On Premises GPU采用xGPU虚拟化技术

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
GPU调度 - 云容器引擎 CCE
GPU调度 - 云容器引擎 CCE

GPU调度 GPU节点驱动版本使用Kubernetes默认GPU调度 GPU虚拟化监控GPU资源指标 CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

合适的NVIDIA驱动版本。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。如果您需要安装最新版本的GPU驱动，请将您的GPU插件升级到最新版本。表1 GPU驱动支持列表 GPU型号支持集群类型机型规格操作系统 Huawei Cloud

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU故障处理前提条件如需将GPU事件同步上报至AOM，集群中需安装云原生日志采集插件，您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件当GPU显卡出现异常时，系统会将出现问题的GPU设备进行隔离，详细事件如表1所示。表1 GPU插件隔离事件事件原因详细信息

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
精度调优前准备工作 - AI开发平台ModelArts

thon三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。此外，问题定位主要基于GPU环境和NPU环境上运行的过程数据做对比，所以需要分别准备GPU和NPU训练环境，大部分场景需要规模相同的训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优

总条数： 9740

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用GPU虚拟化 - 云容器引擎 CCE

安装并配置GPU驱动 - 智能边缘平台 IEF

安装并配置GPU驱动 - 智能边缘平台 IEF

手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

准备工作 - CodeArts IDE Online

监控GPU资源指标 - 云容器引擎 CCE

准备GPU资源 - 华为云UCS

GPU驱动不可用 - 弹性云服务器 ECS

训练迁移快速入门案例 - AI开发平台ModelArts

定制运行时方式创建GPU函数 - 函数工作流 FunctionGraph

创建和训练模型 - CodeArts IDE Online

选择GPU节点驱动版本 - 云容器引擎 CCE

环境准备 - AI开发平台ModelArts

CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

GPU监控指标说明 - 云容器引擎 CCE

GPU调度概述 - 华为云UCS

GPU调度 - 云容器引擎 CCE

CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

精度调优前准备工作 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线