搜索_华为云

如何处理显卡ERR！问题 - 弹性云服务器 ECS

示ERR！处理方法如果当前用户业务正常，仅nvidia-smi执行后存在ERR!显示问题，无需处理。如果当前业务已经受到影响，迁移虚拟机，再根据故障信息收集收集故障信息后联系技术支持处理。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何将扩容系统盘的空白分区在线扩容到末尾的root分区？ - 弹性云服务器 ECS

/dev/xvda1: swap,/dev/xvda2: root)的扩容场景。执行以下命令，查询当前弹性云服务器的分区情况。 parted -l /dev/xvda [root@sluo-ecs-5e7d ~]# parted -l /dev/xvda Disk /dev/xvda: 53

帮助中心 > 弹性云服务器 ECS > 常见问题 > 磁盘分区/挂载/扩容
一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办？ - 弹性云服务器 ECS

一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办？问题描述在弹性云服务器运行时，一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高。图1 查看虚拟内存占用情况问题根因应用程序使用内存的时候通过glibc的内存池来提供，glibc 2.10之前的版本中，只有一个内存池，称为main

帮助中心 > 弹性云服务器 ECS > 常见问题 > 密码与密钥对
如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题问题描述业务调度到某个GPU节点后，发现业务异常，调度到其他节点时正常。某台虚拟机显存使用率突然降低。判断方式执行以下命令，查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

如何处理Nouveau驱动未禁用导致的问题问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像（从ECS普通虚拟机导出的镜像或其他来源的私有镜像）。判断方式执行以下命令，查看Linux内核环缓冲区中的错误关键字信息。 dmesg

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

communicate with the NVIDIA diver。判断方式执行以下命令，查看当前内核版本。 uname -r 根据不同的系统在服务器中执行以下命令，查看安装驱动时的内核版本。 CentOS：find /usr/lib/modules -name nvidia.ko Ubuntu：find

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messages日志发现有

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
通过puttygen.exe工具创建的密钥对，导入管理控制台失败怎么办？ - 弹性云服务器 ECS

txt格式保存在本地，保存公钥文件。将公钥文件导入管理控制台。登录管理控制台。单击管理控制台左上角的，选择区域和项目。选择“计算 > 弹性云服务器”。在左侧导航树中，选择“密钥对”。在“密钥对”页面，单击“导入密钥对”。将“.txt”格式文本文档中的公钥内容粘贴至“Public

帮助中心 > 弹性云服务器 ECS > 常见问题 > 密码与密钥对
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因总线脱落。内核版本不一致。问题影响显卡驱动安装失败，显卡无法使用。处理方法执行以下命令，查看内核版本，检查内核版本是否一致。 rpm -qa | grep

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如果用户使用的是异构发布的公共镜像，可通过镜像名称区分驱动类型与驱动版本。镜像名称中如带有with tesla字样，则选择该镜像会安装tesla驱动；如带有with grid字样，则选择该镜像会安装GRID驱动（不包括License）。如果用户使用的是私有镜像或其他镜像，可通过nvidia-s

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题问题描述用户使用不带驱动的公共镜像或私有镜像，自行安装NVIDIA驱动软件包、CUDA软件包，在安装过程中脚本执行报错。判断方式确认用户使用的镜像文件。确认用户的NVIDIA软件包来源。确认用户想要的

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高问题原因显卡散热异常、风扇损坏。问题影响显卡温度过高，影响用户业务。处理方法执行nvidia-smi命令，查看风扇是否正常。如果风扇转速为0，说明风扇可能存在损坏，用户停止业务，执行业务迁移后，根据故障

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

版本配套关系：https://docs.nvidia.com/grid/index.html 处理方法重启GPU弹性云服务器。若显示适配器恢复正常，则恢复完成。若仍异常，则执行下一步。请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。如果用户使用的是vGPU实例，且实例驱动版本与主机版本不匹配，请重装版本匹配的驱动软件。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错问题原因 XID 说明 32 Invalid or corrupted push buffer stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

-q查看所有的卡。如果volatile下Single Bit或Aggregate下的Single Bit仅有Device Memory项有数值增加，不影响使用，无需处理。如果volatile下Single Bit、Double bit或Aggregate下的Single Bit、Double

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错：Failed to restart

帮助中心 > 弹性云服务器 ECS > 故障排除 > 操作系统类（Linux）
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域？ - 弹性云服务器 ECS

一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域？可以，但是不建议这种部署方式。建议将一个应用软件内的不同部件部署到同一个区域，这样不同部件之间的通信可以采用内网网络通信，既可以节省因采用公网网络通信带来的带宽费用，又可以保证不同部件之间的网络通信质量。父主题：

帮助中心 > 弹性云服务器 ECS > 常见问题 > 区域与可用区
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页问题原因显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令，查看显卡信息。如果在volatile Uncorr. ECC下ecc error

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法

总条数： 1198

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何处理显卡ERR！问题 - 弹性云服务器 ECS

如何将扩容系统盘的空白分区在线扩容到末尾的root分区？ - 弹性云服务器 ECS

一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办？ - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

通过puttygen.exe工具创建的密钥对，导入管理控制台失败怎么办？ - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域？ - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线