检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图形加速型 G3 NVIDIA M60(GPU直通) 2048 4.8TFLOPS单精度浮点计算 云桌面、图像渲染、3D可视化、重载图形设计。
2022-11-23 GPU云服务器卡顿 windowsGPU云服务器 GPU云服务器运行速度变慢 使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 - 弹性云服务器 ECS 使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 处理方法 先使用VNC方式远程登录弹性云服务器
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
在CCE控制台使用GPU资源,只需在创建工作负载时,选择使用的GPU配额即可。 图1 使用GPU GPU节点标签 创建GPU节点后,CCE会给节点打上对应标签,如下所示,不同类型的GPU节点有不同标签。
为什么选择华为云GPU加速云服务器 GACS 超强计算能力,从容应对海量计算场景 超强计算能力,从容应对海量计算场景 提供超强算力的GPU计算卡和自研昇腾加速卡,满足人工智能、科学计算、图形工作站等计算场景 网络性能出色,支持GPU Direct over RDMA,100G超高带宽
表1 GPU驱动支持的加速能力 驱动类型 License CUDA OpenGL DirectX Vulkan 典型应用场景 说明 GRID驱动 需要 支持 支持 支持 支持 3D渲染、图形工作站、游戏加速 付费使用,需要购买License,满足图形图像类应用加速用途。
图1 设置xGPU配额 本文主要为您介绍GPU虚拟化的使用,其他参数详情请参见工作负载。 其余信息都配置完成后,单击“创建”。 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量。
图1 访问Prometheus 单击“Status > Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。
图2 参数选择 驱动信息确认完毕,单击“Find”按钮,会跳转到驱动信息展示页面,找到需要下载的驱动,单击“view”跳转到下载页面。 图3 驱动信息 鼠标右键单击“Download”按钮,复制下载链接。
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
图7 查看CUDA安装结果 父主题: 管理GPU加速型ECS的GPU驱动
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
T4 GPU设备显示异常 问题描述 使用NVIDIA Tesla T4 GPU的云服务器,例如Pi2或G6规格,执行nvidia-smi命令查看GPU使用情况时,显示如下: No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,工作负载调度GPU时建议使用显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)和算显隔离模式(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core.percentage
图11 License Server管理控制台 父主题: 管理GPU加速型ECS的GPU驱动
图6 稍后重启 如果不需要重启,单击“关闭”。 图7 关闭 返回桌面,在空白处右键单击,选择“NVIDIA控制面板”,查看驱动版本,判断驱动是否安装成功。 若显示如下版本,表示驱动安装成功。 图8 驱动版本 父主题: 管理GPU加速型ECS的GPU驱动
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。
DCGM提供了种类丰富的GPU监控指标,功能特性如下: GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控 本文基于CCE云原生监控插件和DCGM Exporter实现丰富的GPU观测场景,常用指标请参见
手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱动,推荐使用通过节点池升级节点的GPU驱动版本。
图10 卸载CUDA驱动 CUDA库卸载成功,会返回”Successfully uninstalled”。 移除CUDA库和cuDNN库: rm –rf /usr/local/cuda-11.2 父主题: 管理GPU加速型ECS的GPU驱动