检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除弹性云服务器。 后续处理 弹性云服务器创建成功后,可以通过FPGA加速型云服务器提供的硬件开发套件(HDK)和应用开发套件(SDK),进行AEI(Accelerated Engine Image)的开发和应用。更多关于FPGA加速型云服务器的使用,请参见《FPGA加速型云服务器用户指南》。
入门实践 当您购买了弹性云服务器后,可以根据业务需要搭建为不同的环境、网站或应用。 本文介绍弹性云服务器常见的搭建实践,帮助您更好的使用弹性云服务器。 环境搭建 实践 描述 手工搭建Java Web环境 以CentOS 7.4 64bit操作系统云服务器为例,介绍如何搭建Java
规格变更 云服务器如何升配和降配,是否需要关机? 变更弹性云服务规格时,提示系统繁忙,无法成功提交? CentOS 5操作系统云服务器执行驱动安装脚本失败怎么办? Linux云服务器变更规格时执行驱动安装脚本失败怎么办? Windows弹性云服务器变更规格后数据盘脱机怎么办? L
磁盘空间管理 CentOS 7中修改fstab无法挂载怎么办? Linux如何创建swap分区/swap文件 文件已经删除,但空间未释放怎么办? Linux文件系统提示:Read-only file system Inode节点耗尽导致无法创建新文件问题处理 Linux操作系统云服务器磁盘分区提示空间不足怎么办?
如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA
如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules
如何收集NVIDIA日志 收集NVIDIA日志方法如下: 登录弹性云服务器。 在任意目录下执行以下命令。(如果是CCE场景,进入到/opt/cloud/cce/nvidia/bin目录后执行) sh nvidia-bug-report.sh 或 ./nvidia-bug-report
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
如何查询显卡详细信息 查询指定显卡的详细信息 登录弹性云服务器。 执行以下命令,查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息 登录弹性云服务器。 执行以下命令,所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下:
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。
如何处理infoROM错误 问题描述 Linux操作系统的云服务器在执行nvidia-smi命令报错“WARNING:infoROM is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。 问题原因 健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。
如何查询显卡在位信息 查询显卡在位信息方法如下: 登录弹性云服务器。 执行以下命令,查看显卡在位情况,确认是否和服务器规格显卡数一致,保存回显结果。 lspci | grep NV 如下图所示,可以看到有一张GPU显卡,且显卡是rev a1,状态正常;如果为rev ff或其他状态,则显卡可能故障。
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messa
如何查询XID报错信息 XID消息是NVIDIA驱动程序向操作系统的内核日志或事件日志打印的错误报告,用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。