搜索_华为云

如何查询NVIDIA的错误信息 - 弹性云服务器 ECS

如何查询NVIDIA的错误信息查询NVDIA错误信息的方法如下：登录弹性云服务器。执行以下命令，查看是否存在error信息，保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果，例如：NVRM、nouveau、nvidia、nv字样等。父主题：

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

Blacklist为Yes，说明存在待隔离页，需要重新加载驱动去隔离。处理方法方法一：执行以下命令，查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令，重置GPU。 nvidia-smi -r 执行以下命令，查看是否存在待隔离页。 nvidia-smi -q

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
异构类实例安装支持对应监控的CES Agent（Windows） - 弹性云服务器 ECS

如果您的弹性云服务器未安装GPU驱动，可参见（推荐）自动安装GPU加速型ECS的GPU驱动（Windows）。安装GPU驱动需使用默认路径。 GPU驱动安装完后，需重启GPU加速型实例，否则可能导致采集GPU指标及上报GPU事件失败。 GPU驱动正常安装后，最多10分钟将在控制台看到采集到的GPU指标数据。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 使用CES监控ECS
如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

13 Graphics Engine Exception，非硬件故障，可能是指令错误等。 31 GPU memory page fault，非硬件故障，可能访问了非法地址等。 43 GPU stopped processing，非硬件故障，可能是自身软件错误。详情可以参考NVI

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理显卡ERR！问题 - 弹性云服务器 ECS

如何处理显卡ERR！问题问题描述执行nvidia-smi命令，仅Pwr:Usage/Cap（能耗）显示ERR！处理方法如果当前用户业务正常，仅nvidia-smi执行后存在ERR!显示问题，无需处理。如果当前业务已经受到影响，迁移虚拟机，再根据故障信息收集收集故障信息后联系技术支持处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令，查看GPU信息。 nvidia-smi 如果回显正常，则问题已修复。如果回显仍报错，请参考GPU驱动不可用中的处理方法进行操作。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messages日志发现有如下报错，询问用户后确认用户购

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

如何处理Nouveau驱动未禁用导致的问题问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像（从ECS普通虚拟机导出的镜像或其他来源的私有镜像）。判断方式执行以下命令，查看Linux内核环缓冲区中的错误关键字信息。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

动的公共镜像，或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动（Linux） GPU加速型实例自动安装GPU驱动（Windows）如果用户已安装驱动，但驱动不匹配使用场景，请卸载驱动后重新安装。请参考安装GPU驱动。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

not responding to commands”，说明是总线脱落，请联系技术支持人员换卡。如果仍未确认问题，请根据故障信息收集收集GPU故障后联系技术支持处理。父主题：显卡故障诊断及处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

处理方法推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本，按需安装。 GPU加速型实例自动安装GPU驱动（Linux） GPU加速型实例自动安装GPU驱动（Windows）如果自动安装驱动脚本中无用户需要的目标软件版本，请联系技术支持处理。父主题：

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令查看显卡信息。如果在volatile Uncorr. ECC下发现存在ecc error，执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。如果在volatile

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

error较多，继续诊断是否达到换卡条件：执行nvidia-smi –r命令，重置GPU。执行nvidia-smi --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

版本配套关系：https://docs.nvidia.com/grid/index.html 处理方法重启GPU弹性云服务器。若显示适配器恢复正常，则恢复完成。若仍异常，则执行下一步。请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。如果用户使用的是vGPU实例，且实例驱动版本与主机版本不匹配，请重装版本匹配的驱动软件。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
管理云服务器组 - 弹性云服务器 ECS

理服务器上，以此保证业务的高可用性和底层容灾能力。故障域：同一云服务器组中分布多个故障域，指定不同故障域可以实现云服务器的故障隔离，提高业务的可靠性。使用故障域策略可以将业务涉及到的云服务器分散部署在不同的故障域中，以此保证业务的高可用性和底层容灾能力。云服务器组支持以下操作：

帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理ECS配置信息
鲲鹏CentOS 7和中标麒麟NKASV 7云服务器使用GNOME图形化后鼠标不可用怎么办？ - 弹性云服务器 ECS

rtio GPU。鼠标显示有两种方式，分别称为Software Cursor和Hardware Cursor。 virtio GPU默认使用Hardware cursor，hardware cursor会依赖VNC客户端去显示鼠标光标的位置和形状，如果hardware cursor配置了“Let

帮助中心 > 弹性云服务器 ECS > 常见问题 > 操作系统相关问题
异构类实例安装支持对应监控的CES Agent（Linux） - 弹性云服务器 ECS

前提条件已配置DNS和安全组，配置方法参考如何配置DNS和安全组？。已配置委托，配置方法参考如何配置委托？。实例已安装对应驱动。 GPU加速型实例：已安装GPU驱动。未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。如果您的弹性云服务器未安装GPU驱动，可参见（推

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 使用CES监控ECS
最新动态 - 弹性云服务器 ECS
最新动态 - 弹性云服务器 ECS

阶段相关文档 1 GPU加速型，新增P2s型弹性云服务器。 P2s型弹性云服务器采用NVIDIA Tesla V100 GPU，能够提供超高的通用计算能力，适用于AI深度学习、科学计算，在深度学习训练、科学计算、计算流体动力学、计算金融、地震分析、分子建模、基因组学等领域都能表现出巨大的计算优势。

帮助中心 > 弹性云服务器 ECS > 最新动态
弹性云服务器怎样停止计费？ - 弹性云服务器 ECS

弹性云服务器怎样停止计费？按需计费的普通实例（不含本地盘和FPGA卡的实例，非裸金属实例）、竞价模式的竞价计费普通实例（不含本地盘和FPGA卡的实例，非裸金属实例），关机后，基础资源（vCPU、内存、镜像、GPU）不再计费，绑定的云硬盘（包括系统盘、数据盘）、弹性公网IP、带宽

 帮助中心 > 弹性云服务器 ECS > 常见问题 > 计费相关
Ubuntu系列弹性云服务器如何安装图形化界面？ - 弹性云服务器 ECS

04操作系统需使用添加的子账号登录图像化桌面。对于GPU加速型弹性云服务器弹性云服务器，还需要继续配置X Server、x11vnc和lightdm。（可选）配置X Server、x11vnc和lightdm 对于GPU加速型弹性云服务器，在安装图形化界面时，需要配置X Server、x11vnc和lightdm。

帮助中心 > 弹性云服务器 ECS > 常见问题 > 操作系统相关问题

总条数： 144

上一页
1
2
3
4
5
...
8
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何查询NVIDIA的错误信息 - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

异构类实例安装支持对应监控的CES Agent（Windows） - 弹性云服务器 ECS

如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

如何处理显卡ERR！问题 - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

管理云服务器组 - 弹性云服务器 ECS

鲲鹏CentOS 7和中标麒麟NKASV 7云服务器使用GNOME图形化后鼠标不可用怎么办？ - 弹性云服务器 ECS

异构类实例安装支持对应监控的CES Agent（Linux） - 弹性云服务器 ECS

最新动态 - 弹性云服务器 ECS

弹性云服务器怎样停止计费？ - 弹性云服务器 ECS

Ubuntu系列弹性云服务器如何安装图形化界面？ - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线