检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图形处理器频率 cce_gpu_video_clock Gauge MHz GPU卡 GPU视频处理器频率 物理状态数据 cce_gpu_temperature Gauge ℃ GPU卡 GPU温度 cce_gpu_power_usage Gauge Milliwatt(毫瓦) GPU
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
图1 Nvidia驱动与CUDA Toolkit版本的配套关系 CUDA Toolkit和驱动的版本兼容性列表 在选择Nvidia驱动时,需要保证驱动版本兼容CUDA Toolkit版本,官方提供配套关系如下表。
图26 CUDA安装成功 父主题: 管理GPU加速型ECS的GPU驱动
指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 集群-算力使用率 百分比 集群的算力使用率 计算公式:集群内容器算力使用总量/集群内算力总量 节点-显存使用量
GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
日志提示Compile graph failed 问题现象 日志提示:Compile graph failed。 图1 报错提示 原因分析 模型转换时未指定Ascend后端。 处理方法 需要在模型转换阶段指定“--device=Ascend”。 父主题: 常见问题
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。
、图形图像加速等加速工作负载。
图1 系统日志 执行以下命令,开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令,打开并编辑“/etc/rc.local”文件。
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。
GPU数量小于1时,不支持跨GPU分配,如0.5 GPU只会分配到一张卡上。 指定nvidia.com/gpu后,在调度时不会将负载调度到没有GPU的节点。如果缺乏GPU资源,会报类似如下的Kubernetes事件。
图1 GPU驱动不可用 可能原因 系统内核进行了升级,导致在新内核上,GPU驱动不可用。
选择“仪表盘”,在“集群视图”旁单击“切换视图”,切换为“GPU视图/XGPU视图”。 图1 仪表盘 查看GPU/xGPU视图。 父主题: GPU调度
GPU。
图1 为虚拟化节点打标签 步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。
方法2:查询云服务器安装的驱动版本:whereis nvidia 图1 查询安装的驱动版本 根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为了执行卸载动作,且后续重新安装驱动时需要此安装包)。
在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。
日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群