搜索_华为云

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

件，安装过程出错问题问题描述用户使用不带驱动的公共镜像或私有镜像，自行安装NVIDIA驱动软件包、CUDA软件包，在安装过程中脚本执行报错。判断方式确认用户使用的镜像文件。确认用户的NVIDIA软件包来源。确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messages日志发现有如下报错，

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

-r 根据不同的系统在服务器中执行以下命令，查看安装驱动时的内核版本。 CentOS：find /usr/lib/modules -name nvidia.ko Ubuntu：find /lib/modules -name nvidia.ko 如果当前内核版本与安装驱动时的内核版本不

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

回显结果中出现No表示不存在待隔离页。如果1的回显结果中volatile Uncorr. ECC下ecc error = 0，执行以下命令，查看所有的卡是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果3的回显结果中Pending Page Bl

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
通过实例自定义数据配置ECS实例 - 弹性云服务器 ECS

/etc/hosts查看脚本的运行结果。图2 查看运行结果关于Windows弹性云服务器的实例自定义数据脚本 Windows弹性云服务器的实例自定义数据脚本（简称“脚本”）采用开源的cloudbase-init架构实现，该架构以弹性云服务器的元数据为数据来源，对弹性云服务器

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理ECS配置信息 > 使用实例自定义数据和元数据
Linux操作系统执行passwd命令重置密码失败提示：Authentication token manipulation error - 弹性云服务器 ECS

root用户用passwd命令修改管理员用户以及普通用户的密码时失败，提示passwd:Authentication token manipulation error。根因分析出现该问题通常是密码文件的属性的问题导致，也有可能是根目录空间满。执行以下命令查看存放用户和密码的文件（/etc/passwd和/etc/shadow）属性。

帮助中心 > 弹性云服务器 ECS > 故障排除 > 密码与密钥对
通过脚本批量更新ECS一键式重置密码插件（Windows） - 弹性云服务器 ECS

操作场景当您需要对多台Windows系统的云服务器批量更新一键式重置密码插件时，可参考本文档操作。前提条件准备好执行机，执行机需满足的条件请参见约束与限制。需要提前准备待批量安装插件的云服务器的IP地址、Administrator用户的密码信息。执行机应该与待更新机器在同一VPC下。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 密码和密钥对管理 > 管理ECS一键式重置密码插件
一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办？ - 弹性云服务器 ECS

应用程序使用内存的时候通过glibc的内存池来提供，glibc 2.10之前的版本中，只有一个内存池，称为main arena。从glibc 2.10版本开始引入了thread arena，导致虚拟内存VIRT和常驻内存SHR过高。可通过限制一键式重置密码插件的可申请内存解决该问题。

帮助中心 > 弹性云服务器 ECS > 常见问题 > 密码与密钥对
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因总线脱落。内核版本不一致。问题影响显卡驱动安装失败，显卡无法使用。处理方法执行以下命令，查看内核版本，检查内核版本是否一致。 rpm -qa | grep

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。 79 GPU has fallen off the bus。总线脱落，需要下线维修详情可以参考NVIDIA的Xid描述文档：https://docs.nvidia.com/

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
通过AOM批量更新ECS一键式重置密码插件 - 弹性云服务器 ECS

主机IP：主机的IP。操作系统：主机的操作系统，例如Linux。登录账号：登录主机的账号。建议使用root账号，可保证有足够的读写权限。登录端口：访问主机的端口。认证方式：认证方式为密码。密码：登录主机的密码。连接测试结果：测试安装机和需安装主机间的网络连通性以及密码正确性。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 密码和密钥对管理 > 管理ECS一键式重置密码插件
如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

可能是因为显卡过热，用户先停止业务，待显卡缓解过热后再执行nvidia-smi命令，查看ERR!是否消失。如果回显正常，建议用户调整下业务，限制显卡运行的最大功率。如果仍未恢复正常，根据故障信息收集收集故障信息后联系技术支持处理。父主题：显卡故障诊断及处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
通过脚本批量更新ECS一键式重置密码插件（Linux） - 弹性云服务器 ECS

host_list.txt 将需要自动安装驱动的云服务器的相关信息填写到host_list.txt文件中。文件填写格式与登录待切换弹性云服务器的方式需要匹配。使用密钥对方式鉴权的云服务器，填写方式如下：使用密钥对方式鉴权的云服务器，请将创建弹性云服务器时保存的私钥文件，上传至与host_list

帮助中心 > 弹性云服务器 ECS > 用户指南 > 密码和密钥对管理 > 管理ECS一键式重置密码插件
鲲鹏CentOS 7和中标麒麟NKASV 7云服务器使用GNOME图形化后鼠标不可用怎么办？ - 弹性云服务器 ECS

conf 执行以下命令生成xorg.conf的配置模板。 Xorg :0 -configure 生成的文件位于/root/xorg.conf.new 。如果已经使用了图形化界面，请执行以下命令： Xorg :2 -configure 执行后生成的文件位于/root/xorg.conf

帮助中心 > 弹性云服务器 ECS > 常见问题 > 操作系统相关问题
NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错：Failed to restart

帮助中心 > 弹性云服务器 ECS > 故障排除 > 操作系统类（Linux）
如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

问题原因某种健全性检查没有通过，GPU驱动程序不会使用或信任其内容（某些内容未被使用）。问题影响可能影响ECC相关非易失数据的记录，从而导致本该隔离的GPU内存页面继续使用。处理方法用户停止业务并执行业务迁移。执行业务迁移后，根据故障信息收集收集故障信息后联系技术支持处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令，查看显卡信息。如果在volatile Uncorr. ECC下ecc error > 0，执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。如果在volatile

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法

总条数： 1197

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

通过实例自定义数据配置ECS实例 - 弹性云服务器 ECS

Linux操作系统执行passwd命令重置密码失败提示：Authentication token manipulation error - 弹性云服务器 ECS

通过脚本批量更新ECS一键式重置密码插件（Windows） - 弹性云服务器 ECS

一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办？ - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

通过AOM批量更新ECS一键式重置密码插件 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

通过脚本批量更新ECS一键式重置密码插件（Linux） - 弹性云服务器 ECS

鲲鹏CentOS 7和中标麒麟NKASV 7云服务器使用GNOME图形化后鼠标不可用怎么办？ - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线