搜索_华为云

使用Kubernetes默认GPU调度 - 云容器引擎 CCE

通过nvidia.com/gpu指定申请GPU的数量，支持申请设置为小于1的数量，比如nvidia.com/gpu: 0.5，这样可以多个Pod共享使用GPU。GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。使用nvidia.com/gpu参数指定GPU数量时，re

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

GPU卡 GPU时钟频率 cce_gpu_memory_clock GPU卡 GPU显存频率 cce_gpu_graphics_clock GPU卡 GPU图形处理器频率 cce_gpu_video_clock GPU卡 GPU视频处理器频率物理状态数据 cce_gpu_temperature

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
选择GPU节点驱动版本 - 云容器引擎 CCE

选择GPU节点驱动版本使用GPU加速型云服务器时，需要安装正确的Nvidia基础设施软件，才可以使用GPU实现计算加速功能。在使用GPU前，您需要根据GPU型号，选择兼容配套软件包并安装。本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。如何选择GPU节点驱动版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

合适的NVIDIA驱动版本。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。如果您需要安装最新版本的GPU驱动，请将您的GPU插件升级到最新版本。表1 GPU驱动支持列表 GPU型号支持集群类型机型规格操作系统 Huawei Cloud

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
准备GPU虚拟化资源 - 云容器引擎 CCE

集群默认驱动：集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”，则需填写Nvidia驱动的下载链接，详情请参见获取驱动链接-公网地址。节点池自定义驱动：若您不希望集群中的所有GPU节点使用相同的驱动，CCE支持以节点池为单位安装不同的GPU驱动。配置节点池自

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配，您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理，创建应用时可调度到指定驱动版本的节点池，在升级驱动时，也可以根据节点池分批次控制升级。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
同步云服务器 - 云容器引擎 CCE

同步云服务器操作场景集群中的每一个节点对应一台云服务器，集群节点创建成功后，您仍可以根据需求，修改云服务器的名称或变更规格。由于规格变更对业务有影响，建议一台成功完成后再对下一台进行规格变更。 CCE节点的部分信息是独立于弹性云服务器ECS维护的，当您在ECS控制台修改云服务

 帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 管理节点
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU驱动或GPU设备存在异常，请根据GPU设备所在的节点类型（ECS或BMS），联系对应的客服进行处理。 GPU设备DBE错误与SBE错误总数过高 GPU驱动或GPU设备存在异常，请根据GPU设备所在的节点类型（ECS或BMS），联系对应的客服进行处理。 GPU设备存在Uncorrectable

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
手动更新GPU节点驱动版本 - 云容器引擎 CCE

手动更新GPU节点驱动版本一般情况下，您可以通过CCE AI套件（NVIDIA GPU）插件配置节点的驱动文件路径，节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。手动更新GPU节点的驱动版本为临时方案，适用于需要对某个节点进行差异化配置的场景，但节点重启后将自动重置为GPU插件配置中指定的版本。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

兼容Kubernetes默认GPU调度模式开启GPU虚拟化后，默认该GPU节点不再支持使用Kubernetes默认GPU调度模式的工作负载，即不再支持使用nvidia.com/gpu资源的工作负载。如果您在集群中已使用nvidia.com/gpu资源的工作负载，可在gpu-device-p

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

GPU虚拟化节点弹性伸缩配置当集群中GPU虚拟化资源不足时，支持自动进行GPU节点的弹性伸缩。本文将指导您如何创建GPU虚拟化节点的弹性伸缩策略。前提条件已创建一个v1.28或v1.29版本的集群。在集群中安装CCE AI套件（NVIDIA GPU）（2.7.5及以上版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
使用GPU虚拟化 - 云容器引擎 CCE

显存：显存值单位为MiB，需为正整数，且为128的倍数。若配置的显存超过单张GPU卡的显存，将会出现无法调度状况。算力：算力值单位为%，需为5的倍数，且最大不超过100。当显存设置为单张GPU卡的容量上限或算力设置为100%时，将会使用整张GPU卡。使用GPU虚拟化时，工作负载调度器将默认指定为Volcano且不可更改。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？问题现象当集群中存在GPU/NPU节点和普通节点混合使用的场景时，普通工作负载也可以调度到GPU/NPU节点上，可能出现GPU/NPU资源未充分利用的情况。问题原因由于GPU/NPU节点同样提供CPU、内存资源，在一般

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
监控GPU资源指标 - 云容器引擎 CCE

GPU卡 GPU时钟频率 cce_gpu_memory_clock GPU卡 GPU显存频率 cce_gpu_graphics_clock GPU卡 GPU图形处理器频率 cce_gpu_video_clock GPU卡 GPU视频处理器频率物理状态数据 cce_gpu_temperature

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

计算公式：节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量字节显卡上容器显存使用总量 GPU卡-算力使用率百分比每张GPU卡的算力使用率计算公式：显卡上容器算力使用总量/显卡的算力总量 GPU卡-温度摄氏度每张GPU卡的温度 GPU-显存频率赫兹每张GPU卡的显存频率 GPU卡-PCle带宽

 帮助中心 > 云容器引擎 CCE > 用户指南 > 可观测性 > 监控中心 > 仪表盘
GPU调度 - 云容器引擎 CCE
GPU调度 - 云容器引擎 CCE

GPU调度 GPU节点驱动版本使用Kubernetes默认GPU调度 GPU虚拟化监控GPU资源指标基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理父主题：调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动，尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化，我们将及时跟进帮助您升级修复。如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动，请参考上图确认您安装的GPU驱动是否受该漏洞影响。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
云服务器无法纳管至节点池时如何修改云服务器配置 - 云容器引擎 CCE

将云服务器的企业项目修改成与节点池的企业项目一致。修改云服务器的企业项目云服务器组不一致将云服务器的云服务器组修改成与节点池的云服务器组一致。修改云服务器的云服务器组修改云服务器的规格待纳管云服务器规格需修改成节点池中包含的规格。更多操作指导请参见ECS变更规格通用操作。登录ECS控制台。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点池

总条数： 1047

上一页
1
2
3
4
5
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubernetes默认GPU调度 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

选择GPU节点驱动版本 - 云容器引擎 CCE

CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

准备GPU虚拟化资源 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

同步云服务器 - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

手动更新GPU节点驱动版本 - 云容器引擎 CCE

兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

使用GPU虚拟化 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

监控GPU资源指标 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

GPU调度 - 云容器引擎 CCE

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

云服务器无法纳管至节点池时如何修改云服务器配置 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线