检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的驱动与主机的驱动版本是否匹配。 登录实例所在主机。 执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。
如何查询XID报错信息 XID消息是NVIDIA驱动程序向操作系统的内核日志或事件日志打印的错误报告,用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。
signature, // 签名 ) 验证证书 验证证书链是证书有效性验证过程中不可或缺的一部分。证明文档中的CA Bundle包含了根证书和中间证书的证书列表,并按以下顺序提供: [ ROOT_CERT - INTERM_1 - INTERM_2
安全 责任共担 身份认证与访问控制 数据保护技术 审计与日志 监控安全风险 故障恢复 认证证书 擎天Enclave
如何查询显卡详细信息 查询指定显卡的详细信息 登录弹性云服务器。 执行以下命令,查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息 登录弹性云服务器。 执行以下命令,所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下:
module 'nvidia.ko'” Xid报错 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 父主题: GPU实例故障自诊断
如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules
kernel module 'nvidia.ko'” 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 父主题: GPU实例故障自诊断
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
怎样查询Linux弹性云服务器磁盘分区与磁盘设备的对应关系? 怎样配置Windows弹性云服务器的虚拟内存? 如何将扩容系统盘的空白分区在线扩容到末尾的root分区? 如何将扩容系统盘的空白分区在线扩容到非末尾的root分区? 一台弹性云服务器可以挂载多块磁盘吗? 弹性云服务器挂载磁盘时有什么限制? 哪些弹
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。
如何处理infoROM错误 问题描述 Linux操作系统的云服务器在执行nvidia-smi命令报错“WARNING:infoROM is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。 问题原因 健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。
Linux操作系统云服务器中buffer和cache占用内存怎么办? 扩容云硬盘后使用growpart扩容分区失败怎么办? SCSI磁盘IO压力大时,在线并发扩容失败怎么办? 如何清理Windows云服务云硬盘空间
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
系统跳转至该弹性云服务器详情页面。 选择“弹性网卡”页签,并单击待解绑弹性网卡右侧的“解绑”。 对于该弹性云服务器的主弹性网卡(默认为网卡列表中显示的第一个弹性网卡),用户不能执行解绑操作。 在弹出的对话框中单击“是”,解绑弹性网卡。 对于部分弹性云服务器,不支持在线解绑弹性网卡功能,具体以界面显示为
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev
作如下: 登录云服务器。 打开左下角的“开始”菜单,右键单击“计算机”,并选择“属性”。 在左侧导航栏,选择“远程设置”。 选择“远程”页签,并在“远程桌面”栏,选择“允许远程连接到此计算机”。 图2 远程设置 单击“确定”。 父主题: Windows远程登录报错类
如何处理驱动兼容性问题 问题描述 用户执行nvidia-smi命令回显报错“No devices were found”。 No devices were found 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
主机安全服务”。 在“资产管理 > 主机管理”的“云服务器”页签,查看服务器的防护状态。 图2 查看主机安全状态 表1 状态说明 参数 说明 Agent状态 未安装:未安装Agent,或Agent已安装但未成功启动。 在线:Agent运行正常。 离线:Agent与HSS服务器通信异常,HSS无法提供安全防护功能。