搜索_华为云

深度诊断ECS - 弹性云服务器 ECS

登录管理控制台，进入弹性云服务器列表页面。在待深度诊断的ECS的“操作”列，单击“更多 > 运维与监控 > 深度诊断”。（可选）在“开通云运维中心并添加权限”页面，阅读服务声明并勾选后，单击“开通并授权”。若当前账号未开通并授权COC服务，则会显示该页面。在“深度诊断”页面，选择“深度诊断场景”为“全面诊断”。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 自助运维管理
GPU实例故障自诊断 - 弹性云服务器 ECS

GPU实例故障自诊断 GPU实例故障，如果已安装GPU监控的CES Agent，当GPU服务器出现异常时则会产生事件通知，可以及时发现问题避免造成用户损失。如果没有安装CES Agent，只能依赖用户对故障的监控情况，发现故障后及时联系技术支持处理。 GPU实例故障处理流程 GPU实例故障分类列表

 帮助中心 > 弹性云服务器 ECS > 故障排除
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错问题原因 XID 说明 32 Invalid or corrupted push buffer stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高问题原因显卡散热异常、风扇损坏。问题影响显卡温度过高，影响用户业务。处理方法执行nvidia-smi命令，查看风扇是否正常。如果风扇转速为0，说明风扇可能存在损坏，用户停止业务，执行业务迁移后，根据故障

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因某种健全性检查没有通过，GPU驱动程序不会使用或信任其内容（某些内容未被使用）。问题影响可能影响ECC相关非易失数据的记录，从而导致本该隔离的GPU内存页面继续使用。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 - 弹性云服务器 ECS

使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器处理方法先使用VNC方式远程登录弹性云服务器，并修改配置文件，然后再使用SSH方式登录。进入弹性云服务器运行页面，单击“远程登录”。自动跳转至登录页面，登录root用户，输入密码。密码为创建弹性云服务器时设置的密码。

帮助中心 > 弹性云服务器 ECS > 常见问题 > 远程登录 > 登录前准备类
GPU加速云服务器出现NVIDIA内核崩溃，如何解决？ - 弹性云服务器 ECS

GPU加速云服务器出现NVIDIA内核崩溃，如何解决？问题描述 GPU加速型云服务器在运行过程中发生crash，重启云服务器后检查日志，发现没有打印NVIDIA驱动堆栈日志。图1 堆栈日志信息可能原因云服务器在运行过程中遇到NVIDIA官方驱动bug，导致云服务器内核崩溃。

帮助中心 > 弹性云服务器 ECS > 常见问题 > 操作系统相关问题
故障信息收集 - 弹性云服务器 ECS

如何查询显卡在位信息如何查询NVIDIA的错误信息如何查询XID报错信息如何收集NVIDIA日志如何查询内核信息如何收集驱动安装信息父主题： GPU实例故障自诊断

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
故障信息收集方法 - 弹性云服务器 ECS

cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令，将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。使用命令获取信息请参考表1。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何查询XID报错信息 - 弹性云服务器 ECS

用于标识GPU错误事件，提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。查询XID报错信息方法如下：登录弹性云服务器。执行以下命令，查看是否存在xid相关报错，保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空，说明无XID消息。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
显卡故障诊断及处理方法 - 弹性云服务器 ECS

ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡）如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常，执行nvidia-smi命令发现温度过高如何处理驱动安装报错“Unable

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
非硬件故障自恢复处理方法 - 弹性云服务器 ECS

非硬件故障自恢复处理方法如何处理Nouveau驱动未禁用导致的问题如何处理ECC ERROR：存在待隔离页问题如何处理升级内核后，驱动不可用问题如何处理GPU掉卡问题如何处理显卡ERR！问题如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题如何处理驱动兼容性问题如何处理可恢复的Xid故障问题

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
如何查询显卡在位信息 - 弹性云服务器 ECS

执行以下命令，查看显卡在位情况，确认是否和服务器规格显卡数一致，保存回显结果。 lspci | grep NV 如下图所示，可以看到有一张GPU显卡，且显卡是rev a1，状态正常；如果为rev ff或其他状态，则显卡可能故障。父主题：故障信息收集

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何收集NVIDIA日志 - 弹性云服务器 ECS

如何收集NVIDIA日志收集NVIDIA日志方法如下：登录弹性云服务器。在任意目录下执行以下命令。（如果是CCE场景，进入到/opt/cloud/cce/nvidia/bin目录后执行） sh nvidia-bug-report.sh 或 ./nvidia-bug-report

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何查询内核信息 - 弹性云服务器 ECS

如何查询内核信息查询内核信息的方法如下：登录弹性云服务器。执行以下命令，查看内核版本。 uname -r 执行以下命令，查看安装驱动时的内核版本。 Ubuntu：find /lib/modules -name nvidia.ko CentOS：find /usr/lib/modules

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何处理infoROM错误 - 弹性云服务器 ECS

is corrupted at gpu 0000:00:0D.0”，并且用户业务已经受到影响。问题原因健全性检查没有通过，GPU驱动程序不会使用或信任其内容（某些内容未被使用）。问题影响可能影响ECC相关非易失数据的记录，导致本该隔离的GPU内存页面继续使用。处理方法如果用户业务暂未受损，则无需处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何收集驱动安装信息 - 弹性云服务器 ECS

如何收集驱动安装信息收集驱动安装信息的方法如下：登录弹性云服务器。执行以下命令，检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题，收集/var/log/nvidia-installer.log 驱动安装日志，并转储日志信息。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何获取显卡ID - 弹性云服务器 ECS

如何获取显卡ID Linux操作系统获取显卡ID的方法如下：登录弹性云服务器。在任意路径下执行nvidia-smi命令。（CCE集群场景为/opt/cloud/cce/nvidia/bin目录下） Windows操作系统获取显卡ID的方法如下：进入到C:\Program Files\NVIDIA

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何查询显卡详细信息 - 弹性云服务器 ECS

如何查询显卡详细信息查询指定显卡的详细信息登录弹性云服务器。执行以下命令，查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息登录弹性云服务器。执行以下命令，所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下：

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何处理驱动兼容性问题 - 弹性云服务器 ECS

查看云服务器的实例规格，确认用户使用的镜像信息。如果使用NVIDIA Tesla T4 GPU（例如，Pi2或G6规格），请参见T4 GPU设备显示异常进行处理。如果使用其他规格的GPU云服务器，执行下一步。查看系统日志“/var/log/message”，是否存在驱动相关报错。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法

总条数： 144

上一页
1
2
3
4
5
...
8
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

深度诊断ECS - 弹性云服务器 ECS

GPU实例故障自诊断 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 - 弹性云服务器 ECS

GPU加速云服务器出现NVIDIA内核崩溃，如何解决？ - 弹性云服务器 ECS

故障信息收集 - 弹性云服务器 ECS

故障信息收集方法 - 弹性云服务器 ECS

如何查询XID报错信息 - 弹性云服务器 ECS

显卡故障诊断及处理方法 - 弹性云服务器 ECS

非硬件故障自恢复处理方法 - 弹性云服务器 ECS

如何查询显卡在位信息 - 弹性云服务器 ECS

如何收集NVIDIA日志 - 弹性云服务器 ECS

如何查询内核信息 - 弹性云服务器 ECS

如何处理infoROM错误 - 弹性云服务器 ECS

如何收集驱动安装信息 - 弹性云服务器 ECS

如何获取显卡ID - 弹性云服务器 ECS

如何查询显卡详细信息 - 弹性云服务器 ECS

如何处理驱动兼容性问题 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线