检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行以下命令,查看GPU信息。 nvidia-smi 如果回显正常,则问题已修复。 如果回显仍报错,请参考GPU驱动不可用中的处理方法进行操作。 父主题: 非硬件故障自恢复处理方法
PAGE_RETIREMENT 如果3的回显结果中Pending Page Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi
为169.254网段中的一个IP,和官网上显示的内网IP不同。 推荐使用公共镜像创建云服务器,公共镜像均已支持DHCP持续获取能力。 处理方法(Linux) 本文以CentOS 7.2为例进行介绍,其他版本操作系统请参考对应操作系统帮助文档。 登录Linux云服务器,执行如下命令,查看是否存在dhclient进程。
Windows远程登录报错类 远程连接Windows云服务器报错:出现身份验证错误,要求的函数不受支持 远程连接Windows云服务器报错:此计算机无法连接到远程计算机 远程连接Windows云服务器报错:没有远程登录的权限 远程连接Windows云服务器报错:没有远程桌面授权服务器可以提供许可证
能表现差;查看/var/log/messages日志发现有如下报错,询问用户后确认用户购买了License但是未配置License。 处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。
4T 1% /data 本地盘的换盘预处理会导致本地盘数据丢失。如需保留本地盘数据,请结束操作并联系技术支持进行处理。 卸载故障的本地磁盘 执行以下命令,卸载故障的本地磁盘。 umount 挂载点 以挂载点“/data”为例,命令如下: umount /data 检查报障云服务器
kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集
com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
83% /srv/data 本地盘的换盘预处理会导致本地盘数据丢失。如需保留本地盘数据,请结束操作并联系技术支持进行处理。 卸载故障的本地磁盘 执行以下命令,卸载故障的本地磁盘。 umount 挂载点 以挂载点“/data”为例,命令如下: umount /data 检查报障云服务器
/dev/vdb1 如果遇到提示当前文件系统为mounted,需要先umount文件系统。 执行以下命令,查看当前挂载信息执行 mount 卸载设备 umount 挂载点 修复文件系统(以vdb1为例)。 ext系列文件系统执行以下命令 fsck /dev/vdb1 xfs系列文件执行以下命令
拟化驱动不正常时网络、存储性能降低。 操作场景 场景一: Windows弹性云服务器未安装Tools。 场景二: 弹性云服务器虚拟化驱动被卸载,导致虚拟化驱动无法正常运行。 操作步骤 Windows弹性云服务器安装Tools的步骤: 获取Tools安装包“pvdriver-windows
判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。 处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux)
ing通? 问题描述 云服务器可以远程连接,但弹性公网IP无法ping通。 问题原因 需要添加安全组的入方向规则并开启ICMP协议。 处理方法 登录管理控制台。 选择“计算 > 弹性云服务器”。 在弹性云服务器列表栏,单击目标弹性云服务器名称。 系统进入弹性云服务器详情页。 选择
ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi
-m命令查询的是弹性云服务器的可用内存,dmidecode -t memory命令查询的是实际硬件内存大小。 对于采用QingTian虚拟化类型的规格(例如C7),因其基于全卸载架构,相比于KVM虚拟化类型的规格,还需要从虚拟机内存中分配一部分内存用于实现客户设备功能以及加速,例如页表管理、IO缓存等。 因此,使用free
执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。
详细内容,请参见修改预约时间。 本地盘换盘期间,实例的系统盘、云硬盘类型的数据盘以及正常的本地盘不受影响。 本地盘换盘期间,故障本地盘会被卸载并清空所有数据,为了保障数据安全,请提前进行本地盘数据备份。 详细内容,请参见本地盘数据备份。 超高I/O型(I系列)的ECS,本地盘换盘
方式二:创建云硬盘备份。 新增一个磁盘并挂载至ECS,详细操作,请参见为ECS新增磁盘和为ECS挂载磁盘。 将旧磁盘的数据复制到新磁盘。 卸载并删除旧磁盘,详细操作,请参见在线卸载磁盘和删除云硬盘。 父主题: 磁盘分区/挂载/扩容
可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法