检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志提示Compile graph failed 问题现象 日志提示:Compile graph failed。 图1 报错提示 原因分析 模型转换时未指定Ascend后端。 处理方法 需要在模型转换阶段指定“--device=Ascend”。 父主题: 常见问题
、图形图像加速等加速工作负载。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
图1 Nvidia驱动与CUDA Toolkit版本的配套关系 CUDA Toolkit和驱动的版本兼容性列表 在选择Nvidia驱动时,需要保证驱动版本兼容CUDA Toolkit版本,官方提供配套关系如下表。
指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 集群-算力使用率 百分比 集群的算力使用率 计算公式:集群内容器算力使用总量/集群内算力总量 节点-显存使用量
DCGM_FI_DEV_MEM_CLOCK cce_gpu_graphics_clock Gauge Mhz GPU卡 GPU图形处理器频率 - cce_gpu_video_clock Gauge Mhz GPU卡 GPU视频处理器频率 DCGM_FI_DEV_VIDEO_CLOCK
图26 CUDA安装成功 父主题: 管理GPU加速型ECS的GPU驱动
GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。
图1 GPU驱动不可用 可能原因 系统内核进行了升级,导致在新内核上,GPU驱动不可用。
图1 系统日志 执行以下命令,开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令,打开并编辑“/etc/rc.local”文件。
在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。
日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
图1 GPU实例故障处理流程 父主题: GPU实例故障自诊断
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。
容器镜像函数创建完成后,在函数代码配置页面,选择“设置->常规设置”,单击“启用GPU”,配置GPU参数。 表1 GPU参数说明 参数名称 说明 GPU卡型 当前仅支持NVIDIA-T4。 GPU规格(GB) 支持1~16GB。 图1 启用GPU 父主题: 创建GPU函数
GPU。
图5 HPA策略创建成功 父主题: GPU调度
GPU数量小于1时,不支持跨GPU分配,如0.5 GPU只会分配到一张卡上。 指定nvidia.com/gpu后,在调度时不会将负载调度到没有GPU的节点。如果缺乏GPU资源,会报类似如下的Kubernetes事件。
选择“仪表盘”,在“集群视图”旁单击“切换视图”,切换为“GPU视图/XGPU视图”。 图1 仪表盘 查看GPU/xGPU视图。 父主题: GPU调度