检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模糊搜索 在云服务器列表页搜索的输入框中选择“规格名称”。 根据提示输入多个规格名称,使用“,”分隔,单击进行搜索。 图11 按规格名称搜索云服务器 精确搜索 在云服务器列表页搜索的输入框中选择“私有IP地址”。
No devices were found 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4 GPU设备显示异常进行处理。 如果使用其他规格的GPU云服务器,执行下一步。
使用须知 如果GPU加速型实例已安装GPU驱动,需要先卸载原驱动后再安装新的目标驱动。 当前仅部分GPU加速型实例的规格、部分Windows操作系统版本支持通过脚本自动安装GPU驱动。
Linux实例执行命令或启动服务时出现错误:Cannot allocate memory 问题描述 Linux操作系统的ECS实例内存充足,但是在执行命令或启动服务时,出现错误提示“Cannot allocate memory”。
模糊搜索 在云服务器列表页搜索的输入框中选择“规格名称”。 根据提示输入多个规格名称,使用“,”分隔,按回车键进行搜索。 图9 按规格名称搜索云服务器 精确搜索 在云服务器列表页搜索的输入框中选择“私有IP地址”。
如何处理infoROM错误 问题描述 Linux操作系统的云服务器在执行nvidia-smi命令报错“WARNING:infoROM is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。 问题原因 健全性检查没有通过,GPU驱动程序不会使用或信任其内容
解决方案 远程登录ECS实例。 执行以下命令,查看ECS实例内核参数kernel.unknown_nmi_panic的值。 sysctl -n kernel.unknown_nmi_panic 如果内核参数的取值为1,说明是由于内核参数配置错误引起的ECS实例异常重启。
卸载GPU加速型ECS的GPU驱动 操作场景 当GPU加速型云服务器需手动卸载GPU驱动时,可参考本文档进行操作。 GPU驱动卸载命令与GPU驱动的安装方式和操作系统类型相关,例如: Windows操作系统卸载驱动 Linux操作系统卸载驱动 Windows操作系统卸载驱动 以Windows
判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev a1),请继续按照处理方法处理;如果查找不到显卡或者显示状态为rev ff,请根据显卡故障诊断及处理方法进行故障诊断。规格对应显卡数量可以通过GPU加速型查询。
GPU虚拟化型实例,需要严格按照表1选择合适的驱动版本下载使用。 Tesla驱动下载地址 请单击NVIDIA驱动下载,根据实例的类型,选择NVIDIA产品类型、产品系列和产品。
sudo nvidia-smi -pm 1 启用持久模式设置可以优化Linux实例上GPU设备的性能。 Windows操作系统安装CUDA工具包 以下操作以Windows Server 2016 Standard 64bit操作系统GPU实例安装CUDA 10.1为例。
配置同一VPC内ECS通过主机名进行通信 对于同一VPC内的弹性云服务器,可以通过主机名称进行通信。此时,您需要配置主机名与IP地址之间的映射关系。较之通过IP地址进行通信,主机名方式进行通信更为方便。 约束限制 仅适用于Linux弹性云服务器。 操作步骤 假设VPC内共有2台弹性云服务器
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理
虚拟化架构变更主要是指KVM架构实例变更为QingTian架构实例,详细操作,请参见KVM实例变更为QingTian实例(Windows)。 KVM实例:参考规格清单,查询对应规格的虚拟化类型。 QingTian架构实例:选择“通用计算增强型C7”、“内存优化型M7”。
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing
处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。 如果回显正常,且能查询到驱动版本,驱动版本是GRID驱动的版本,则说明已安装GRID驱动。
配置信息 云服务器的配置信息包括云服务器规格、镜像、系统盘信息、数据盘信息,私有IP地址、弹性公网IP地址、安全组等信息,同时提供变更规格、切换操作系统等操作入口。 监控信息 云服务器运行相关的信息,包括CPU和网络使用情况。
该文件记录了弹性云服务器的如下信息: 基本信息:名称、区域、可用区、状态、规格、镜像、计费模式等信息。 网络信息:私有IP地址、弹性公网IP、VPC、子网、安全组等信息。 磁盘信息:磁盘数量、磁盘属性、磁盘容量等信息。 操作步骤 登录管理控制台。
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr