搜索_华为云

GPU调度 - 云容器引擎 CCE
GPU调度 - 云容器引擎 CCE

GPU调度 GPU节点驱动版本使用Kubernetes默认GPU调度 GPU虚拟化监控GPU资源指标 CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
使用Kubernetes默认GPU调度 - 云容器引擎 CCE

通过nvidia.com/gpu指定申请GPU的数量，支持申请设置为小于1的数量，比如nvidia.com/gpu: 0.5，这样可以多个Pod共享使用GPU。GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。使用nvidia.com/gpu参数指定GPU数量时，re

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

/nvidia-smi 若能正常返回GPU信息，说明设备可用，插件安装成功。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。如果您需要安装最新版本的GPU驱动，请将您的GPU插件升级到最新版本。表2 GPU驱动支持列表 GPU型号支持集群类型机型规格

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
GPU监控指标说明 - 云容器引擎 CCE

Gauge Byte GPU卡 GPU bar1 内存使用量 cce_gpu_bar1_memory_total Gauge Byte GPU卡 GPU bar1 内存总量频率 cce_gpu_clock Gauge MHz GPU卡 GPU时钟频率 cce_gpu_memory_clock

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

GPU视图 GPU资源指标可以衡量GPU性能和使用情况，包括GPU的利用率、温度、显存等方面的监控数据，帮助您掌控GPU运行状况。指标说明图1 GPU资源指标表1 GPU图表说明图表名称单位说明集群-显存使用率百分比集群的显存使用率计算公式：集群内容器显存使用总量/集群内显存总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

合适的NVIDIA驱动版本。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。如果您需要安装最新版本的GPU驱动，请将您的GPU插件升级到最新版本。表1 GPU驱动支持列表 GPU型号支持集群类型机型规格操作系统 Huawei Cloud

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
选择GPU节点驱动版本 - 云容器引擎 CCE

选择GPU节点驱动版本使用GPU加速型云服务器时，需要安装正确的Nvidia基础设施软件，才可以使用GPU实现计算加速功能。在使用GPU前，您需要根据GPU型号，选择兼容配套软件包并安装。本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。如何选择GPU节点驱动版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

etes默认GPU调度模式（支持使用nvidia.com/gpu资源的工作负载）。在工作负载中声明nvidia.com/gpu资源（即配置nvidia.com/gpu为小数，例如0.5）时将通过虚拟化GPU提供，实现GPU显存隔离，按照设定值的百分比为容器分配GPU显存（例如分配0

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU故障处理前提条件如需将GPU事件同步上报至AOM，集群中需安装云原生日志采集插件，您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件当GPU显卡出现异常时，系统会将出现问题的GPU设备进行隔离，详细事件如表1所示。表1 GPU插件隔离事件事件原因详细信息

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
使用GPU虚拟化 - 云容器引擎 CCE

alloc()等。受GPU虚拟化技术的限制，容器内应用程序初始化时，通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。节点上开启了GPU虚拟化且有多张GPU卡时，如果GPU资源不足，不支持抢占其他Pod的GPU资源。创建GPU虚拟化应用通过控制台创建

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
监控GPU资源指标 - 云容器引擎 CCE

监控了哪些目标。图2 查看监控目标监控GPU指标创建一个使用GPU的工作负载，等工作负载正常运行后，访问Prometheus，在“Graph”页面中，查看GPU指标。关于GPU指标详情请参见GPU监控指标说明。图3 查看GPU监控指标访问Grafana Prometh

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
手动更新GPU节点驱动版本 - 云容器引擎 CCE

置为GPU插件配置中指定的版本。如果需要稳定升级GPU节点驱动，推荐使用通过节点池升级节点的GPU驱动版本。前提条件需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。操作步骤如果您需要使用指定的NVIDIA驱动版本，可以在节点安装新版本GPU驱动，操作步骤如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和DCGM Exporter实现丰富的GPU观测场景，常用指标请参见GPU监控指标

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？问题现象当集群中存在GPU/NPU节点和普通节点混合使用的场景时，普通工作负载也可以调度到GPU/NPU节点上，可能出现GPU/NPU资源未充分利用的情况。问题原因由于GPU/NPU节点同样提供CPU、内存资源，在一般

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配，您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理，创建应用时可调度到指定驱动版本的节点池，在升级驱动时，也可以根据节点池分批次控制升级。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

在“GPU配置”中找到“节点池配置”，并选择新增的目标节点池。参考准备GPU虚拟化资源，选择满足GPU虚拟化要求的驱动，并开启支持GPU虚拟化。图1 异构资源配置单击“确认配置”进行保存。步骤三：创建GPU虚拟化负载并扩容参考使用GPU虚拟化章节，创建使用GPU虚拟化

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
准备GPU虚拟化资源 - 云容器引擎 CCE

准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。前提条件配置支持版本集群版本 v1.23.8-r0、v1.25

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

name: 'cce-gpu' cce-gpu 结合CCE的GPU插件支持GPU资源分配，支持小数GPU配置。说明： 1.10.5及以上版本的插件不再支持该插件，请使用xgpu插件。小数GPU配置的前提条件为CCE集群GPU节点为共享模式，检查集群是否关闭GPU共享，请参见修改C

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件

总条数： 336

上一页
1
2
3
4
5
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU调度 - 云容器引擎 CCE

使用Kubernetes默认GPU调度 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

GPU监控指标说明 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

选择GPU节点驱动版本 - 云容器引擎 CCE

兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

使用GPU虚拟化 - 云容器引擎 CCE

监控GPU资源指标 - 云容器引擎 CCE

GPU虚拟化概述 - 云容器引擎 CCE

手动更新GPU节点驱动版本 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

准备GPU虚拟化资源 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线