检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi -r 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d
弹性公网IP(Elastic IP,简称EIP)提供独立的公网IP资源,包括公网IP地址与公网出口带宽服务。可以与弹性云服务器、裸金属服务器、虚拟IP、弹性负载均衡、NAT网关等资源灵活地绑定及解绑。拥有多种灵活的计费方式,可以满足各种业务场景的需要。 一个弹性公网IP只能绑定一个云资源使用。
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
无公网IP的弹性云服务器访问Internet SNAT 通过公网NAT网关的SNAT规则访问公网 无公网IP的弹性云服务器对互联网提供服务 DNAT 通过公网NAT网关的DNAT规则面向公网提供服务 通过Linux操作系统的代理主机 本方案需要: 已拥有一台绑定了公网IP的弹性云服务器作为代理弹性云服务器。
如何处理驱动兼容性问题 问题描述 用户执行nvidia-smi命令回显报错“No devices were found”。 No devices were found 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4
VNC登录界面乱码 可能原因 用户使用cat命令显示了一个较大二进制文件,导致云服务器登录界面显示乱码。 处理方案 使用root账号登录弹性云服务器,执行以下命令进行恢复操作。 reset reset命令是用来重新初始化终端,刷新终端屏幕。执行reset命令后会将混乱的显示清除掉,恢复正常显示状态。
怎样检查IB云服务器的网络是否正常? 对于已安装InfiniBand网卡驱动的H2型弹性云服务器(以下简称IB云服务器),可以通过如下方式,检查云服务器的IB网卡驱动安装成功、网络连通,可以正常工作。 检查过程中,如果发现您的弹性云服务器未安装ibstat等命令工具,需先从Infi
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。
在CUDA下载页面中,按照Tesla驱动及CUDA工具包获取方式中的对应的索引项在页面中进行选择。 图14 选择CUDA的版本 选择完成后,页面会自动呈现出Ubuntu 20.04 64bit对应的CUDA 10.1的下载地址,复制下载地址。 在云服务器内部执行如下命令进行下载。 wget 复制的链接地址 例如:wget
该字段已废弃,如需修改云服务器的hostname,请参考怎样使修改的静态主机名永久生效?。 user_data 否 String 修改云服务器过程中待注入实例自定义数据。支持注入文本、文本文件。 说明: user_data的值为base64编码之后的内容。 注入内容(编码之前的内容)最大长度为32K。
me命令查看不同镜像下,弹性云服务器的主机名以及重启弹性云服务器后的主机名,显示结果如表1所示。 表1 不同镜像查询的主机名 镜像 重启前查询的主机名 重启后再次查询的主机名 CentOS 6.8 abc abc.novalocal CentOS 7.3 abc.novalocal
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
repos.d/epel-testing.repo.backup 修改epel.repo文件。 执行以下命令,取消baseurl开头的行的注释;增加mirrorlist开头的行的注释;将文件中的http://download.fedoraproject.org/pub替换成https://repo
问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile
如果当前内核版本与安装驱动时的内核版本不一致,则确认为内核升级后导致的驱动不可用。 处理方法 依次执行以下命令,移除NVIDIA的驱动。 rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令,查看GPU信息。 nvidia-smi
动即可正常使用。 方法二:基于新的内核版本,重新安装驱动。 卸载驱动。 方法1:执行nvidia-uninstall命令,卸载驱动。 如果提示命令不存在可以执行•查询云服务器安装的驱动版本:whereis n...卸载驱动。 方法2:查询云服务器安装的驱动版本:whereis nvidia
如何获取弹性云服务器的物理机房位置? 可用区之间的数据传输是否需要收费? 云服务器购买成功后,是否可以更换区域和可用区? 弹性云服务器可以迁移到其他区域/可用区/账号吗? 不同区域之间的云服务器可以使用负载均衡吗? 是否可以在不同的区域之间实施应用灾备? 是否提供支持应用灾备的相关服务?
如何查看云服务器的mac地址? 本节介绍如何查看云服务器的mac地址。 云服务器的mac地址不支持修改。 Linux操作系统(CentOS 6) 登录Linux云服务器。 执行以下命令,查看云服务器的mac地址。 ifconfig 图1 查看mac地址 Linux操作系统(CentOS
时还有运行的进程持有这个已经被删除了的文件的句柄,那么这个文件就不会真正在磁盘中被删除,分区超级块中的信息也就不会更改。这样df仍旧会统计这个被删除了的文件。 处理方法 执行以下命令,切换到/opt目录。 cd /opt 执行以下命令,查看所有已被删除但还被进程占用的文件。 lsof
com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法