检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图形加速型 G3 NVIDIA M60(GPU直通) 2048 4.8TFLOPS单精度浮点计算 云桌面、图像渲染、3D可视化、重载图形设计。
2022-11-23 GPU云服务器卡顿 windowsGPU云服务器 GPU云服务器运行速度变慢 使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 - 弹性云服务器 ECS 使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 处理方法 先使用VNC方式远程登录弹性云服务器
指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 集群-算力使用率 百分比 集群的算力使用率 计算公式:集群内容器算力使用总量/集群内算力总量 节点-显存使用量
在CCE控制台使用GPU资源,只需在创建工作负载时,选择使用的GPU配额即可。 图1 使用GPU GPU节点标签 创建GPU节点后,CCE会给节点打上对应标签,如下所示,不同类型的GPU节点有不同标签。
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
为什么选择华为云GPU加速云服务器 GACS 超强计算能力,从容应对海量计算场景 超强计算能力,从容应对海量计算场景 提供超强算力的GPU计算卡和自研昇腾加速卡,满足人工智能、科学计算、图形工作站等计算场景 网络性能出色,支持GPU Direct over RDMA,100G超高带宽
图2 参数选择 驱动信息确认完毕,单击“Find”按钮,会跳转到驱动信息展示页面,找到需要下载的驱动,单击“view”跳转到下载页面。 图3 驱动信息 鼠标右键单击“Download”按钮,复制下载链接。
图11 License Server管理控制台 父主题: 管理GPU加速型ECS的GPU驱动
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
图1 设置xGPU配额 本文主要为您介绍GPU虚拟化的使用,其他参数详情请参见工作负载。 其余信息都配置完成后,单击“创建”。 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量。
表1 GPU驱动支持的加速能力 驱动类型 License CUDA OpenGL DirectX Vulkan 典型应用场景 说明 GRID驱动 需要 支持 支持 支持 支持 3D渲染、图形工作站、游戏加速 付费使用,需要购买License,满足图形图像类应用加速用途。
图7 查看CUDA安装结果 父主题: 管理GPU加速型ECS的GPU驱动
图1 访问Prometheus 单击“Status > Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。
T4 GPU设备显示异常 问题描述 使用NVIDIA Tesla T4 GPU的云服务器,例如Pi2或G6规格,执行nvidia-smi命令查看GPU使用情况时,显示如下: No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,工作负载调度GPU时建议使用显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)和算显隔离模式(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core.percentage
图6 稍后重启 如果不需要重启,单击“关闭”。 图7 关闭 返回桌面,在空白处右键单击,选择“NVIDIA控制面板”,查看驱动版本,判断驱动是否安装成功。 若显示如下版本,表示驱动安装成功。 图8 驱动版本 父主题: 管理GPU加速型ECS的GPU驱动
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。
图26 CUDA安装成功 父主题: 管理GPU加速型ECS的GPU驱动
图10 卸载CUDA驱动 CUDA库卸载成功,会返回”Successfully uninstalled”。 移除CUDA库和cuDNN库: rm –rf /usr/local/cuda-11.2 父主题: 管理GPU加速型ECS的GPU驱动