检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
Linux系统执行find命令时出现EXT4-fs error错误 问题描述 Linux系统执行find命令时出现EXT4-fs error错误。 可能原因 该错误由于磁盘分区文件系统损坏导致,需要卸载磁盘进行修复,建议对数据盘做备份后进行操作。 操作须知 修复文件系统,可能会产生数据丢失,请先备份数据后进行操作。
备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果用户使用的是vGPU实例,确认实例安装的驱动与主机的驱动版本是否匹配。 登录实例所在主机。 执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs
查询浮动IP资源池列表(废弃) 功能介绍 查询浮动IP资源池列表。 当前API已废弃,请使用"查询网络"。 接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET
为什么操作系统实际版本与购买时镜像版本不一致? 问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、EulerOS操作系统云服务器。
KVM实例变更至QingTian实例后出现蓝屏或业务异常,如何回滚至初始规格? 操作场景 当云服务器的操作系统为Windows 2016,且从KVM架构规格变更为QingTian规格架构时,系统可能会出现蓝屏或业务异常。 KVM实例:参考规格清单,查询对应规格的虚拟化类型。 Qi
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
Linux操作系统执行passwd命令重置密码失败提示:Authentication token manipulation error 问题现象 root用户用passwd命令修改管理员用户以及普通用户的密码时失败,提示passwd:Authentication token manipulation
EIP资源在什么情况下会被冻结,如何解除被冻结的EIP资源? EIP资源在如下情况会被冻结: 欠费被冻结 包年包月EIP资源 保留期,指宽限期到期后客户的包年/包月资源仍未续订,将进入保留期。保留期即被冻结状态。被冻结的资源不可用,也不能修改、删除。超过保留期仍未续费,冻结资源将
通过puttygen.exe工具创建的密钥对,导入管理控制台失败怎么办? 问题描述 通过puttygen.exe工具创建的密钥对,在导入管理控制台使用时,系统提示导入公钥文件失败。 可能原因 公钥内容的格式不符合系统要求。 当用户使用puttygen.exe工具创建密钥对时,如果使用puttygen
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。