检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
卸载驱动。 方法1:执行nvidia-uninstall命令,卸载驱动。 如果提示命令不存在可以执行 查询云服务器安装的驱动版本:whereis n...卸载驱动。 方法2:查询云服务器安装的驱动版本:whereis nvidia 图2 查询安装的驱动版本 根据查询的驱动版本从NVID
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev
选择驱动程序,单击“下一步”。 选择磁盘,单击“下一步”。 进入“正在安装Windows”界面,开始安装操作系统。 安装过程大约耗时50分钟,安装完成后请重新登录弹性云服务器。 父主题: 操作系统类(Windows)
如何开启CentOS操作系统的SELinux功能? 问题描述 CentOS 7.5版本操作系统的弹性云服务器默认关闭SELinux功能。通过/etc/selinux/config开启SELinux功能后,在输入密码时,会出现无法登录的问题。 如果业务需要开启SELinux 功能,请参照本节内容进行配置。
Linux系统重启后/etc/hosts自动添加主机名解析 问题现象 云服务器/etc/hosts文件中在重启后自动添加hostname和127.0.0.1的解析,导致自行添加的本地解析出现问题。 根因分析 /etc/cloud/cloud.cfg中对/etc/hosts文件影响的配置如下: manage_etc_hosts:
同一子网的两块网卡均绑定弹性公网IP 问题描述 云服务器上两块相同子网的网卡,均绑定了弹性公网IP。其中,主网卡绑定的弹性公网IP可以正常访问,但是扩展网卡的弹性公网IP无法访问。 可能原因 CentOS操作系统的弹性云服务器默认开启了反向过滤技术(rpfilter),云服务器的默认路由是指向eth0的
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
多用户登录Windows主机时无法打开浏览器 问题描述 Windows2008、Windows2012和Windows2016操作系统在多用户登录Windows云服务器时,如果已经有用户打开了浏览器,第二个用户打开浏览器失败。 处理方法 本节操作以IE浏览器为例。 在桌面选择浏览器图标,单击右键选择“创建快捷方式”。
远程登录时需要输入的账号和密码是多少? 登录云服务器的用户名和密码: Windows操作系统用户名:Administrator Linux操作系统用户名:root 如忘记登录密码或创建云服务器时未设置密码,可通过 “ 重置密码 ” 功能设置新密码。 如果重置密码后,仍然无法远程登录,有可能是云服务器的一键式重置密码插件失效,建议您通过以下操作进行:
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
以下步骤以Linux系统为例,Windows操作系统请检查系统防火墙限制。 确认弹性云服务器是否有多网卡配置。如果配置多网卡且弹性公网IP绑定在非主网卡上,请在弹性云服务内部配置策略路由。 具体请参见如何配置多网卡弹性云服务器的策略路由?。 登录弹性云服务器,执行以下命令,查看网卡是否创建且网卡获取私有IP地址
Linux镜像安装一键式重置密码插件启动失败怎么办? 操作场景 Linux镜像安装一键式重置密码插件启动失败,请参考本章节处理。 问题描述 用户通过执行命令sudo sh setup.sh安装一键式重置密码插件,有如下报错: begin install CloudResetPwdAgent
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
内核参数kernel.unknown_nmi_panic配置错误导致Linux ECS实例异常重启 问题描述 Linux操作系统的ECS实例发生异常重启事件,错误提示如下: Kernel panic - not syncing: NMI: Not continuing 同时,内核日志打印如下信息:
communicate with the NVIDIA diver。 判断方式 执行以下命令,查看当前内核版本。 uname -r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域? 可以,但是不建议这种部署方式。 建议将一个应用软件内的不同部件部署到同一个区域,这样不同部件之间的通信可以采用内网网络通信,既可以节省因采用公网网络通信带来的带宽费用,又可以保证不同部件之间的网络通信质量。 父主题: