搜索_华为云

使用Kubernetes默认GPU调度 - 云容器引擎 CCE

通过nvidia.com/gpu指定申请GPU的数量，支持申请设置为小于1的数量，比如nvidia.com/gpu: 0.5，这样可以多个Pod共享使用GPU。GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。使用nvidia.com/gpu参数指定GPU数量时，re

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

GPU卡 GPU时钟频率 cce_gpu_memory_clock GPU卡 GPU显存频率 cce_gpu_graphics_clock GPU卡 GPU图形处理器频率 cce_gpu_video_clock GPU卡 GPU视频处理器频率物理状态数据 cce_gpu_temperature

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

在“GPU配置”中找到“节点池配置”，并选择新增的目标节点池。参考准备GPU虚拟化资源，选择满足GPU虚拟化要求的驱动，并开启支持GPU虚拟化。图1 异构资源配置单击“确认配置”进行保存。步骤三：创建GPU虚拟化负载并扩容参考使用GPU虚拟化章节，创建使用GPU虚拟化

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
准备GPU虚拟化资源 - 云容器引擎 CCE

准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。前提条件配置支持版本集群版本 v1.23.8-r0、v1.25

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
手动更新GPU节点驱动版本 - 云容器引擎 CCE

置为GPU插件配置中指定的版本。如果需要稳定升级GPU节点驱动，推荐使用通过节点池升级节点的GPU驱动版本。前提条件需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。操作步骤如果您需要使用指定的NVIDIA驱动版本，可以在节点安装新版本GPU驱动，操作步骤如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
使用GPU虚拟化 - 云容器引擎 CCE

使用GPU虚拟化本文介绍如何使用GPU虚拟化能力实现算力和显存隔离，高效利用GPU设备资源。前提条件已完成GPU虚拟化资源准备。如果您需要通过命令行创建，需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。约束与限制单个GPU卡最多虚拟化成20个GPU虚拟设备。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

com/gpu等价于开启虚拟化GPU显存隔离，可以和显存隔离模式（即设置volcano.sh/gpu-mem.128Mi资源）的工作负载共用一张GPU卡，但不支持和算显隔离模式负载（即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

合适的NVIDIA驱动版本。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。如果您需要安装最新版本的GPU驱动，请将您的GPU插件升级到最新版本。表1 GPU驱动支持列表 GPU型号支持集群类型机型规格操作系统 Huawei Cloud

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
选择GPU节点驱动版本 - 云容器引擎 CCE

选择GPU节点驱动版本使用GPU加速型云服务器时，需要安装正确的Nvidia基础设施软件，才可以使用GPU实现计算加速功能。在使用GPU前，您需要根据GPU型号，选择兼容配套软件包并安装。本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。如何选择GPU节点驱动版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配，您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理，创建应用时可调度到指定驱动版本的节点池，在升级驱动时，也可以根据节点池分批次控制升级。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
GPU调度 - 云容器引擎 CCE
GPU调度 - 云容器引擎 CCE

GPU调度 GPU节点驱动版本使用Kubernetes默认GPU调度 GPU虚拟化监控GPU资源指标基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理父主题：调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU故障处理前提条件如需将GPU事件同步上报至AOM，集群中需安装云原生日志采集插件，您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件当GPU显卡出现异常时，系统会将出现问题的GPU设备进行隔离，详细事件如表1所示。表1 GPU插件隔离事件事件原因详细信息

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU虚拟化 - 云容器引擎 CCE
GPU虚拟化 - 云容器引擎 CCE

GPU虚拟化 GPU虚拟化概述准备GPU虚拟化资源使用GPU虚拟化兼容Kubernetes默认GPU调度模式父主题： GPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
监控GPU资源指标 - 云容器引擎 CCE

GPU卡 GPU时钟频率 cce_gpu_memory_clock GPU卡 GPU显存频率 cce_gpu_graphics_clock GPU卡 GPU图形处理器频率 cce_gpu_video_clock GPU卡 GPU视频处理器频率物理状态数据 cce_gpu_temperature

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU节点驱动版本 - 云容器引擎 CCE

GPU节点驱动版本选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表手动更新GPU节点驱动版本通过节点池升级节点的GPU驱动版本父主题： GPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

GPU视图 GPU资源指标可以衡量GPU性能和使用情况，包括GPU的利用率、温度、显存等方面的监控数据，帮助您掌控GPU运行状况。指标说明图1 GPU资源指标表1 GPU图表说明图表名称单位说明集群-显存使用率百分比集群的显存使用率计算公式：集群内容器显存使用总量/集群内显存总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？问题现象当集群中存在GPU/NPU节点和普通节点混合使用的场景时，普通工作负载也可以调度到GPU/NPU节点上，可能出现GPU/NPU资源未充分利用的情况。问题原因由于GPU/NPU节点同样提供CPU、内存资源，在一般

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动，尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化，我们将及时跟进帮助您升级修复。如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动，请参考上图确认您安装的GPU驱动是否受该漏洞影响。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告

总条数： 279

上一页
1
2
3
4
5
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubernetes默认GPU调度 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

准备GPU虚拟化资源 - 云容器引擎 CCE

手动更新GPU节点驱动版本 - 云容器引擎 CCE

使用GPU虚拟化 - 云容器引擎 CCE

兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

选择GPU节点驱动版本 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

GPU调度 - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

GPU虚拟化 - 云容器引擎 CCE

监控GPU资源指标 - 云容器引擎 CCE

GPU节点驱动版本 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线