检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
10操作系统的自身限制,不能以初始密码直接远程连接操作系统为Windows 2012的弹性云服务器。 处理方法 方法一 更换使用Windows 7操作系统的计算机作为客户机,远程连接操作系统为Windows 2012的弹性云服务器。 方法二 继续使用Windows 10 客户机远程登录,但是,需先修改弹性云服务器的初始密码。
用户执行nvidia-smi命令回显报错“No devices were found”。 No devices were found 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4 GPU设备显示异常进行处理。
Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
Windows云服务器配置文件共享和网络磁盘映射方法 操作场景 本节操作介绍在内网环境下,Windows云服务器之间怎样实现文件夹共享。 约束限制 部分运营商可能会屏蔽139、445端口,导致广域网无法访问共享。因此,Windows云服务器文件共享方案建议仅在内网环境下使用。 操作步骤
com/deploy/xid-errors/index.html。 处理方法 尝试重新运行作业并观察Xid错误是否消失。 若错误持续存在,尝试检查代码或分析日志,确认是否为程序引入的Xid故障。 若确认不是程序引入,请联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
明Nouveau驱动已禁用。 如果回显信息中包含nouveau关键字样,说明Nouveau驱动已安装,则需要禁用Nouveau驱动。 处理方法 执行如下命令编辑blacklist.conf文件。 如果没有“/etc/modprobe.d/blacklist.conf”文件,请新建一个。
执行以下命令,查看GPU信息。 nvidia-smi 如果回显正常,则问题已修复。 如果回显仍报错,请参考GPU驱动不可用中的处理方法进行操作。 父主题: 非硬件故障自恢复处理方法
PAGE_RETIREMENT 如果3的回显结果中Pending Page Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi
能表现差;查看/var/log/messages日志发现有如下报错,询问用户后确认用户购买了License但是未配置License。 处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。
镜像(Image)和容器(Container)的关系,就像是面向对象程序设计中的类和实例一样,镜像是静态的定义,容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等。 该指导以CentOS 7.5 64bit(40GiB)、Debian 12.0.0 64bit、Ubuntu 22.04操作系统为例
云服务器内存不足。 处理方法 方法一(推荐): 变更规格,升级云服务器的CPU、内存大小。变更规格的方法,请参见变更规格(CPU和内存)。 方法二: 开启虚拟内存,获取云服务器的空闲内存。 开启虚拟内存的方法,请参见怎样配置Windows弹性云服务器的虚拟内存?。 该方法会导致磁盘I/O性能下降,如非必要,不推荐使用。
先创建桶。桶是OBS中存储对象的容器,将本地文件上传至OBS前需要先创建桶。 创建桶的方式多种多样,本例以在控制台创建桶为例,更多创建桶的方法请参考创建桶。 步骤2:上传本地文件到桶(OBS Browser+方式) 桶创建成功后,您可以通过多种方式将本地文件上传至桶,OBS最终将这些文件以对象的形式存储在桶中。
kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep
云服务器内存不足。 处理方法 方法一(推荐): 变更规格,升级云服务器的CPU、内存大小。变更规格的方法,请参见变更规格(CPU和内存)。 方法二: 开启虚拟内存,获取云服务器的空闲内存。 开启虚拟内存的方法,请参见怎样配置Windows弹性云服务器的虚拟内存?。 该方法会导致磁盘I/O性能下降,如非必要,不推荐使用。
com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。 处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux)
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集
如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。 处理方法 如果用户未安装驱动,请自行安装驱动,或切换带驱动的公共镜像,或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动(Linux)
ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi
和配置。 本节操作指导您手动安装Linux云服务器驱动、配置磁盘自动挂载等,并将XEN实例变更为KVM实例。 如需使用自动化脚本安装驱动的方法请参考XEN实例变更为KVM实例(Linux-自动配置)。 XEN实例:S1、C1、C2、M1型弹性云服务器。 KVM实例:参考规格清单,查询对应规格的虚拟化类型。