检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过控制台配置 通过YAML配置 本文示例中,集群内已创建GPU节点,并设置标签为gpu=true,您可以通过该标签将Pod调度到GPU节点上。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。
配置示例: docker run --rm -it --runtime=nvidia -e GPU_CONTAINER_QUOTA_PERCENT=50 -e GPU_CONTAINER_MEM=5120 -e GPU_IDX=0 -e GPU_POLICY=1 -e GPU_CONTAINER_PRIORITY
版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。
执行nvidia-smi --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages.timestamp --format=csv,如果连续5次出现了double bit
可能原因 x86云服务器使用了cirrus虚拟显卡,鲲鹏云服务器使用的是virtio GPU。鼠标显示有两种方式,分别称为Software Cursor和Hardware Cursor。
图1 GPU规格运行日志信息 父主题: 制作自定义镜像用于训练模型
图1 GPU规格运行日志信息 图2 CPU规格运行日志信息 父主题: 制作自定义镜像用于训练模型
resolution String GPU云服务器传给设备的画面分辨率。 gpu_ip_type String 分配给设备使用的GPU云服务器的IP类型。
无业务节点定义:在资源池详情“节点”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。 图1 驱动升级 设置完成后,单击“确定”开始驱动升级。 父主题: 管理Standard专属资源池
训练作业执行成功后,日志信息如图1所示。 图1 1个计算节点GPU规格worker-0运行日志信息 计算节点个数选择为2,训练作业也可以运行。日志信息如图2和图3所示。
gpu-accelerated:GPU型,支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。
图1 支持GPU监控的CES Agent安装成功 获取安装脚本 您可以通过以下地址,下载获取新版支持CES监控Agent的安装脚本。
是否允许修改 作用范围 volcano.sh/gpu-mem.128Mi 1-16384间整数 无 允许 - 虚拟化GPU显存资源,若配置limit和request相同,可独立配置 GPU虚拟化资源:算力 参数名 取值范围 默认值 是否允许修改 作用范围 volcano.sh/gpu-core.percentage
为保证VR云渲游平台的正常使用,创建GPU云服务器时需要建立委托关系,将CES Administrator和OBS OperateAccess的权限委托给ECS。委托成功后,用户可以通过VR云渲游平台动态监控GPU云服务器的运行状态,并通过GPU云服务器下载OBS桶内的应用。
备注:xx.xx.xx.xx为Grafana的所在宿主机的IP地址 图1 Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号,单击Save&Test: 图2 IP地址和端口号 至此,指标监控方案安装完成。
相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化 NPU调度 CCE为集群中的NPU异构资源提供调度能力,实现快速高效地处理推理和图像识别等工作。
带本地盘、GPU等特殊云服务器不支持在专属主机之间以及公共池与专属主机之间迁移。
图2 常规 选择“本地资源”页签,单击“远程音频”栏的“设置”。 图3 本地资源 在“远程音频播放”栏,选择“在远程计算机上播放”。 图4 远程音频播放 返回“常规”页签,单击右下角的“连接”。 配置房间设置。 在GPU云服务器的D盘,打开CloudVR运行Server端。
无业务节点定义:在资源池详情“节点管理”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。 图2 驱动升级 选择完成后,单击“确定”开始升级驱动。 父主题: Lite Cluster资源管理
GPU加速型弹性云服务器需要安装正确的GPU驱动,详细内容,请参考GPU驱动概述。 安装图形化界面 登录弹性云服务器,运行如下命令安装图形化界面。 执行如下命令,更新软件库。 apt-get update 执行如下命令,安装Ubuntu图形化桌面。