搜索_华为云

GPU调度 - 云容器引擎 CCE
GPU调度 - 云容器引擎 CCE

GPU调度 GPU节点驱动版本使用Kubernetes默认GPU调度 GPU虚拟化监控GPU资源指标 CCE AI套件（NVIDIA GPU）插件使用dcgm-exporter监控GPU指标基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
使用Kubernetes默认GPU调度 - 云容器引擎 CCE

通过nvidia.com/gpu指定申请GPU的数量，支持申请设置为小于1的数量，比如nvidia.com/gpu: 0.5，这样可以多个Pod共享使用GPU。GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。使用nvidia.com/gpu参数指定GPU数量时，re

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

启集群内的其他GPU节点。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的CCE AI套件（NVIDIA GPU）插件。如果您需要安装最新版本的GPU驱动，请将您的CCE AI套件（NVIDIA GPU）插件升级到最新版本。表2 GPU驱动支持列表 GPU型号

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生AI插件
使用GPU虚拟化 - 云容器引擎 CCE

alloc()等。受GPU虚拟化技术的限制，容器内应用程序初始化时，通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。节点上开启了GPU虚拟化且有多张GPU卡时，如果GPU资源不足，不支持抢占其他Pod的GPU资源。创建GPU虚拟化应用通过控制台创建

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

载。重新连接GPU，重新在该GPU上启动新的程序。若重新连接GPU不生效，可尝试重置GPU和重启节点。若重启后仍有该现象，则根据GPU设备所在的节点类型（ECS或BMS），联系对应的客服进行处理。 GPU设备的infoROM损坏 GPU设备存在异常，请根据GPU设备所在的节点

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU虚拟化多卡均分调度 - 云容器引擎 CCE

例如，某应用申请M MiB显存和T%算力，并指定由N张GPU卡（需位于同一GPU节点）分配时，系统会将M MiB显存及T%的算力均匀分配至N张GPU卡。在任务执行过程中，每张GPU仅能使用其分配的M/N MiB显存以及T/N%算力。在GPU虚拟化场景中，显存分配（MiB）必须为

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

com/gpu资源的工作负载不会自动转换为虚拟化GPU，而是继续使用整卡资源。开启GPU虚拟化后，在工作负载中声明nvidia.com/gpu等价于开启虚拟化GPU显存隔离，可以和显存隔离模式的工作负载共用一张GPU卡，但无法与算显隔离模式负载共用一张GPU卡。关于GPU虚拟化的其他约束，请参见约束与限制。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU监控指标说明 - 云容器引擎 CCE

Gauge % GPU进程表示GPU算力的使用量，即GPU负载实际使用的GPU卡算力。算力以整卡的1%为单位，例如30%表示GPU负载实际使用GPU卡中30%的算力。不开启GPU虚拟化：该指标数值与cce_gpu_utilization相同。开启GPU虚拟化：该指标数值与

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化的优势 CCE提供的GPU虚拟化功能优势如下：灵活：精细配置GPU算力占比及显存大小，算力分配粒度为5%GPU，显存分配粒度达MiB级别。隔离：支持显存和算力的严格隔离，支持单显存隔离，算力与显存同时隔离两类场景。兼容：业务无需重新编译，无需进行CUDA库替换，对业务无感。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU虚拟化 - 云容器引擎 CCE
GPU虚拟化 - 云容器引擎 CCE

GPU虚拟化 GPU虚拟化概述准备GPU虚拟化资源使用GPU虚拟化兼容Kubernetes默认GPU调度模式 GPU虚拟化多卡均分调度父主题： GPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
监控GPU资源指标 - 云容器引擎 CCE

介绍。关于GPU指标更多信息，请参见GPU监控指标说明。前提条件集群中已安装云原生监控插件。集群中已安装CCE AI套件（NVIDIA GPU）插件，且插件版本不低于2.0.10。集群中已有NVIDIA GPU节点。如果需要监控GPU虚拟化监控指标，集群中需要已安装V

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
准备GPU虚拟化资源 - 云容器引擎 CCE

节点池级别的GPU虚拟化。集群级别的GPU虚拟化：开启“GPU配置 > GPU虚拟化”，开启后，全局默认开启GPU虚拟化，支持单GPU卡的算力与显存切分。在“集群默认驱动”的中选择支持GPU虚拟化的驱动。在页面右下角单击“确认配置”。图1 开启集群级别GPU虚拟化节点池级别的GPU虚拟化：安装2

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

28及以上集群：支持节点池级别的GPU虚拟化开关。图2 v1.28及以上集群异构资源配置单击“确认配置”进行保存。步骤三：创建GPU虚拟化负载并扩容参考使用GPU虚拟化章节，创建使用GPU虚拟化资源的无状态负载，并将GPU申请量设为大于集群现有GPU资源上限。例如：集群中有16

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
选择GPU节点驱动版本 - 云容器引擎 CCE

选择GPU节点驱动版本使用GPU加速型云服务器时，需要安装正确的Nvidia基础设施软件，才可以使用GPU实现计算加速功能。在使用GPU前，您需要根据GPU型号，选择兼容配套软件包并安装。本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。如何选择GPU节点驱动版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
GPU节点驱动版本 - 云容器引擎 CCE

GPU节点驱动版本选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表手动更新GPU节点驱动版本通过节点池升级节点的GPU驱动版本父主题： GPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

动版本。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的CCE AI套件（NVIDIA GPU）插件。如果您需要安装最新版本的GPU驱动，请将您的CCE AI套件（NVIDIA GPU）插件升级到最新版本。表1 GPU驱动支持列表 GPU型号支持集群类型

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
手动更新GPU节点驱动版本 - 云容器引擎 CCE

docker-monit 检查是否有程序正在使用GPU卡设备，如果存在程序正在使用GPU卡设备，则需要对程序进行驱逐。执行以下命令，检查是否有程序正在使用GPU卡设备。 sudo fuser -v /dev/nvidia* 回显结果如下，则说明存在程序使用正在使用GPU卡设备。如果回显结果为无fu

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配，您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理，创建应用时可调度到指定驱动版本的节点池，在升级驱动时，也可以根据节点池分批次控

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
CCE AI套件（NVIDIA GPU）插件使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和dcgm-exporter实现丰富的GPU观测场景，常用指标请参见GPU监控指标

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度

总条数： 180

上一页
1
2
3
4
5
...
9
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消