搜索_华为云

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题问题描述客户执行nvidia-smi，报错failded to initialize NVML: Driver/library version mismatch。客户执行nvidia-smi，报错NVIDIA-SMI has failed because

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
KVM实例变更至QingTian实例后出现蓝屏或业务异常，如何回滚至初始规格？ - 弹性云服务器 ECS

lSet001\Services\viostor 查看该目录下是否存在“StartOverride”项。若注册表该路径下只有“Enum”和“Parameters”项，则无需修改，如图1所示。图1 注册表若注册表该路径下存在“StartOverride”项，请执行步骤2.d。

帮助中心 > 弹性云服务器 ECS > 常见问题 > 规格变更
（推荐）自动安装GPU加速型ECS的GPU驱动（Linux） - 弹性云服务器 ECS

（推荐）自动安装GPU加速型ECS的GPU驱动（Linux）操作场景在使用GPU加速型实例时，需确保实例已安装GPU驱动，否则无法获得相应的GPU加速能力。本节内容介绍如何在GPU加速型Linux实例上通过脚本自动安装GPU驱动。使用须知本操作仅支持Linux操作系统。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理GPU加速型ECS的GPU驱动
内核参数kernel.unknown_nmi_panic配置错误导致Linux ECS实例异常重启 - 弹性云服务器 ECS

内核参数kernel.unknown_nmi_panic配置错误导致Linux ECS实例异常重启问题描述 Linux操作系统的ECS实例发生异常重启事件，错误提示如下： Kernel panic - not syncing: NMI: Not continuing 同时，内核日志打印如下信息：

帮助中心 > 弹性云服务器 ECS > 故障排除 > 操作系统类（Linux）
（推荐）自动安装GPU加速型ECS的GPU驱动（Windows） - 弹性云服务器 ECS

Server 2019 数据中心版如果您的规格、操作系统或驱动版本不支持通过脚本自动安装GPU驱动，请参考手动安装GPU加速型ECS的GRID驱动和手动安装GPU加速型ECS的Tesla驱动，手动安装GPU驱动。驱动安装脚本支持区域及获取方式您可以在PowerShell上执行以下命令，获取驱动安装脚本。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理GPU加速型ECS的GPU驱动
如何将扩容系统盘的空白分区在线扩容到末尾的root分区？ - 弹性云服务器 ECS

如何将扩容系统盘的空白分区在线扩容到末尾的root分区？操作场景弹性云服务器创建成功后，如果发现系统盘分区的容量大小和实际创建的系统盘大小不一致，可以将空白分区扩容到根分区，扩容系统盘的空白空间。本节介绍了怎样将空白分区在线扩容到末尾的root分区。操作步骤以CentOS

帮助中心 > 弹性云服务器 ECS > 常见问题 > 磁盘分区/挂载/扩容
Linux操作系统执行passwd命令重置密码失败提示：Authentication token manipulation error - 弹性云服务器 ECS

出现该问题通常是密码文件的属性的问题导致，也有可能是根目录空间满。执行以下命令查看存放用户和密码的文件（/etc/passwd和/etc/shadow）属性。 lsattr /etc/passwd /etc/shadow 如上图所示，/etc/passwd和/etc/shadow文件中有i属性，"i"的文件属性表

 帮助中心 > 弹性云服务器 ECS > 故障排除 > 密码与密钥对
如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题问题描述业务调度到某个GPU节点后，发现业务异常，调度到其他节点时正常。某台虚拟机显存使用率突然降低。判断方式执行以下命令，查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messa

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
EIP资源在什么情况下会被冻结，如何解除被冻结的EIP资源？ - 弹性云服务器 ECS

除。超过保留期仍未续费，冻结资源将被释放，被释放资源不可恢复。为确保资源持续可用，请在资源到期前及时续费。宽限期和保留期时长因客户等级不同而不同，详细请参考宽限期和保留期时长限制。按需EIP资源指宽限期到期后客户的按需资源仍在欠费，将资源置于欠费状态并进入保留期，即被冻结状

 帮助中心 > 弹性云服务器 ECS > 常见问题 > 弹性公网IP类
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域？ - 弹性云服务器 ECS

一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域？可以，但是不建议这种部署方式。建议将一个应用软件内的不同部件部署到同一个区域，这样不同部件之间的通信可以采用内网网络通信，既可以节省因采用公网网络通信带来的带宽费用，又可以保证不同部件之间的网络通信质量。父主题：

帮助中心 > 弹性云服务器 ECS > 常见问题 > 区域与可用区
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因总线脱落。内核版本不一致。问题影响显卡驱动安装失败，显卡无法使用。处理方法执行以下命令，查看内核版本，检查内核版本是否一致。 rpm -qa | grep

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错：Failed to restart

帮助中心 > 弹性云服务器 ECS > 故障排除 > 操作系统类（Linux）
如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如何处理用户使用场景与其选择的驱动、镜像不配套问题问题描述用户业务是做渲染（推理）的，但用户选择了带Tesla驱动（GRID驱动）的公共镜像，运行软件时出错。例：用户使用场景为做渲染，但选错公共镜像，运行软件时报错“A D3D11-compatible GPU (Feature

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题问题描述用户使用不带驱动的公共镜像或私有镜像，自行安装NVIDIA驱动软件包、CUDA软件包，在安装过程中脚本执行报错。判断方式确认用户使用的镜像文件。确认用户的NVIDIA软件包来源。确认用户想要的

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高问题原因显卡散热异常、风扇损坏。问题影响显卡温度过高，影响用户业务。处理方法执行nvidia-smi命令，查看风扇是否正常。如果风扇转速为0，说明风扇可能存在损坏，用户停止业务，执行业务迁移后，根据故障

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错问题原因 XID 说明 32 Invalid or corrupted push buffer stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡）问题原因显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令查看显卡信息。如果在volatile Uncorr. ECC下发现存在ecc

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题问题描述用户在Windows设备管理器显示适配器中查询显卡属性，发现设备状态中存在错误“由于该设备有问题，Windows已将其停止”。判断方式确认用户发生问题时的操作，是否有出现显存OOM。如果

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页问题原因显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令，查看显卡信息。如果在volatile

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法

总条数： 1181

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

KVM实例变更至QingTian实例后出现蓝屏或业务异常，如何回滚至初始规格？ - 弹性云服务器 ECS

（推荐）自动安装GPU加速型ECS的GPU驱动（Linux） - 弹性云服务器 ECS

内核参数kernel.unknown_nmi_panic配置错误导致Linux ECS实例异常重启 - 弹性云服务器 ECS

（推荐）自动安装GPU加速型ECS的GPU驱动（Windows） - 弹性云服务器 ECS

如何将扩容系统盘的空白分区在线扩容到末尾的root分区？ - 弹性云服务器 ECS

Linux操作系统执行passwd命令重置密码失败提示：Authentication token manipulation error - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

EIP资源在什么情况下会被冻结，如何解除被冻结的EIP资源？ - 弹性云服务器 ECS

一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域？ - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线