GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用dcgm-exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
通过nvidia.com/gpu指定申请GPU的数量,支持申请设置为小于1的数量,比如nvidia.com/gpu: 0.5,这样可以多个Pod共享使用GPU。GPU数量小于1时,不支持跨GPU分配,如0.5 GPU只会分配到一张卡上。 使用nvidia.com/gpu参数指定GPU数量时,re
启集群内的其他GPU节点。 GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。 如果您需要安装最新版本的GPU驱动,请将您的CCE AI套件(NVIDIA GPU)插件升级到最新版本。 表2 GPU驱动支持列表 GPU型号
alloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。 创建GPU虚拟化应用 通过控制台创建
载。 重新连接GPU,重新在该GPU上启动新的程序。 若重新连接GPU不生效,可尝试重置GPU和重启节点。若重启后仍有该现象,则根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU设备的infoROM损坏 GPU设备存在异常,请根据GPU设备所在的节点
例如,某应用申请M MiB显存和T%算力,并指定由N张GPU卡(需位于同一GPU节点)分配时,系统会将M MiB显存及T%的算力均匀分配至N张GPU卡。在任务执行过程中,每张GPU仅能使用其分配的M/N MiB显存以及T/N%算力。 在GPU虚拟化场景中,显存分配(MiB)必须为
com/gpu资源的工作负载不会自动转换为虚拟化GPU,而是继续使用整卡资源。 开启GPU虚拟化后,在工作负载中声明nvidia.com/gpu等价于开启虚拟化GPU显存隔离,可以和显存隔离模式的工作负载共用一张GPU卡,但无法与算显隔离模式负载共用一张GPU卡。关于GPU虚拟化的其他约束,请参见约束与限制。
Gauge % GPU进程 表示GPU算力的使用量,即GPU负载实际使用的GPU卡算力。算力以整卡的1%为单位,例如30%表示GPU负载实际使用GPU卡中30%的算力。 不开启GPU虚拟化:该指标数值与cce_gpu_utilization相同。 开启GPU虚拟化:该指标数值与
GPU虚拟化的优势 CCE提供的GPU虚拟化功能优势如下: 灵活:精细配置GPU算力占比及显存大小,算力分配粒度为5%GPU,显存分配粒度达MiB级别。 隔离:支持显存和算力的严格隔离,支持单显存隔离,算力与显存同时隔离两类场景。 兼容:业务无需重新编译,无需进行CUDA库替换,对业务无感。
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 使用GPU虚拟化 兼容Kubernetes默认GPU调度模式 GPU虚拟化多卡均分调度 父主题: GPU调度
介绍。 关于GPU指标更多信息,请参见GPU监控指标说明。 前提条件 集群中已安装云原生监控插件。 集群中已安装CCE AI套件(NVIDIA GPU)插件,且插件版本不低于2.0.10。 集群中已有NVIDIA GPU节点。 如果需要监控GPU虚拟化监控指标,集群中需要已安装V
节点池级别的GPU虚拟化。 集群级别的GPU虚拟化: 开启“GPU配置 > GPU虚拟化”,开启后,全局默认开启GPU虚拟化,支持单GPU卡的算力与显存切分。 在“集群默认驱动”的中选择支持GPU虚拟化的驱动。 在页面右下角单击“确认配置”。 图1 开启集群级别GPU虚拟化 节点池级别的GPU虚拟化:安装2
28及以上集群:支持节点池级别的GPU虚拟化开关。 图2 v1.28及以上集群异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容 参考使用GPU虚拟化章节,创建使用GPU虚拟化资源的无状态负载,并将GPU申请量设为大于集群现有GPU资源上限。例如:集群中有16
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
动版本。 GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。 如果您需要安装最新版本的GPU驱动,请将您的CCE AI套件(NVIDIA GPU)插件升级到最新版本。 表1 GPU驱动支持列表 GPU型号 支持集群类型
docker-monit 检查是否有程序正在使用GPU卡设备,如果存在程序正在使用GPU卡设备,则需要对程序进行驱逐。 执行以下命令,检查是否有程序正在使用GPU卡设备。 sudo fuser -v /dev/nvidia* 回显结果如下,则说明存在程序使用正在使用GPU卡设备。如果回显结果为无fu
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控
丰富的GPU监控指标,功能特性如下: GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控 本文基于CCE云原生监控插件和dcgm-exporter实现丰富的GPU观测场景,常用指标请参见GPU监控指标
您即将访问非华为云网站,请注意账号财产安全