检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么操作系统实际版本与购买时镜像版本不一致? 问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、EulerOS操作系统云服务器。
Linux镜像安装一键式重置密码插件启动失败怎么办? 操作场景 Linux镜像安装一键式重置密码插件启动失败,请参考本章节处理。 问题描述 用户通过执行命令sudo sh setup.sh安装一键式重置密码插件,有如下报错: begin install CloudResetPwdAgent
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
com/windows/reset_pwd_agent/CloudResetPwdAgent.zip.sha256 完整性校验步骤,请参见获取并校验一键式重置密码插件完整性(Linux)的步骤4。 安装一键式重置密码插件对插件的具体放置目录无特殊要求,请您自定义。 执行以下命令,
内核参数kernel.unknown_nmi_panic配置错误导致Linux ECS实例异常重启 问题描述 Linux操作系统的ECS实例发生异常重启事件,错误提示如下: Kernel panic - not syncing: NMI: Not continuing 同时,内核日志打印如下信息:
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
通过puttygen.exe工具创建的密钥对,导入管理控制台失败怎么办? 问题描述 通过puttygen.exe工具创建的密钥对,在导入管理控制台使用时,系统提示导入公钥文件失败。 可能原因 公钥内容的格式不符合系统要求。 当用户使用puttygen.exe工具创建密钥对时,如果使用puttygen
一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办? 问题描述 在弹性云服务器运行时,一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高。 图1 查看虚拟内存占用情况 问题根因 应用程序使用内存的时候通过glibc的内存池来提供,glibc 2.10之前的版本中,只有一个内存池,称为main
Linux操作系统执行passwd命令重置密码失败提示:Authentication token manipulation error 问题现象 root用户用passwd命令修改管理员用户以及普通用户的密码时失败,提示passwd:Authentication token manipulation
EIP资源在什么情况下会被冻结,如何解除被冻结的EIP资源? EIP资源在如下情况会被冻结: 欠费被冻结 包年包月EIP资源 保留期,指宽限期到期后客户的包年/包月资源仍未续订,将进入保留期。保留期即被冻结状态。被冻结的资源不可用,也不能修改、删除。超过保留期仍未续费,冻结资源将
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messa
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。