检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图形加速型 G3 NVIDIA M60(GPU直通) 2048 4.8TFLOPS单精度浮点计算 云桌面、图像渲染、3D可视化、重载图形设计。
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
、图形图像加速等加速工作负载。
在CCE控制台使用GPU资源,只需在创建工作负载时,选择使用的GPU配额即可。 图1 使用GPU GPU节点标签 创建GPU节点后,CCE会给节点打上对应标签,如下所示,不同类型的GPU节点有不同标签。
图1 设置xGPU配额 本文主要为您介绍GPU虚拟化的使用,其他参数详情请参见工作负载。 其余信息都配置完成后,单击“创建”。 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量。
图2 参数选择 驱动信息确认完毕,单击“Find”按钮,会跳转到驱动信息展示页面,找到需要下载的驱动,单击“view”跳转到下载页面。 图3 驱动信息 鼠标右键单击“Download”按钮,复制下载链接。
图11 License Server管理控制台 父主题: 管理GPU加速型ECS的GPU驱动
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
表1 GPU驱动支持的加速能力 驱动类型 License CUDA OpenGL DirectX Vulkan 典型应用场景 说明 GRID驱动 需要 支持 支持 支持 支持 3D渲染、图形工作站、游戏加速 付费使用,需要购买License,满足图形图像类应用加速用途。
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
图7 查看CUDA安装结果 父主题: 管理GPU加速型ECS的GPU驱动
图1 访问Prometheus 单击“Status > Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。
T4 GPU设备显示异常 问题描述 使用NVIDIA Tesla T4 GPU的云服务器,例如Pi2或G6规格,执行nvidia-smi命令查看GPU使用情况时,显示如下: No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,工作负载调度GPU时建议使用显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)和算显隔离模式(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core.percentage
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。
图6 稍后重启 如果不需要重启,单击“关闭”。 图7 关闭 返回桌面,在空白处右键单击,选择“NVIDIA控制面板”,查看驱动版本,判断驱动是否安装成功。 若显示如下版本,表示驱动安装成功。 图8 驱动版本 父主题: 管理GPU加速型ECS的GPU驱动
GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。 如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。
图10 卸载CUDA驱动 CUDA库卸载成功,会返回”Successfully uninstalled”。 移除CUDA库和cuDNN库: rm –rf /usr/local/cuda-11.2 父主题: 管理GPU加速型ECS的GPU驱动
日志提示Compile graph failed 问题现象 日志提示:Compile graph failed。 图1 报错提示 原因分析 模型转换时未指定Ascend后端。 处理方法 需要在模型转换阶段指定“--device=Ascend”。 父主题: 常见问题
手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱动,推荐使用通过节点池升级节点的GPU驱动版本。