搜索_华为云

GPU加速云服务器出现NVIDIA内核崩溃，如何解决？ - 弹性云服务器 ECS

GPU加速云服务器出现NVIDIA内核崩溃，如何解决？问题描述 GPU加速型云服务器在运行过程中发生crash，重启云服务器后检查日志，发现没有打印NVIDIA驱动堆栈日志。图1 堆栈日志信息可能原因云服务器在运行过程中遇到NVIDIA官方驱动bug，导致云服务器内核崩溃。

帮助中心 > 弹性云服务器 ECS > 常见问题 > 操作系统相关问题
如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

Blacklist为Yes，说明存在待隔离页，需要重新加载驱动去隔离。处理方法方法一：执行以下命令，查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令，重置GPU。 nvidia-smi -r 执行以下命令，查看是否存在待隔离页。 nvidia-smi -q

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messages日志发现有如下报错，询问用户后确认用户购

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

13 Graphics Engine Exception，非硬件故障，可能是指令错误等。 31 GPU memory page fault，非硬件故障，可能访问了非法地址等。 43 GPU stopped processing，非硬件故障，可能是自身软件错误。详情可以参考NVI

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理显卡ERR！问题 - 弹性云服务器 ECS

如何处理显卡ERR！问题问题描述执行nvidia-smi命令，仅Pwr:Usage/Cap（能耗）显示ERR！处理方法如果当前用户业务正常，仅nvidia-smi执行后存在ERR!显示问题，无需处理。如果当前业务已经受到影响，迁移虚拟机，再根据故障信息收集收集故障信息后联系技术支持处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令，查看GPU信息。 nvidia-smi 如果回显正常，则问题已修复。如果回显仍报错，请参考GPU驱动不可用中的处理方法进行操作。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令查看显卡信息。如果在volatile Uncorr. ECC下发现存在ecc error，执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。如果在volatile

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

not responding to commands”，说明是总线脱落，请联系技术支持人员换卡。如果仍未确认问题，请根据故障信息收集收集GPU故障后联系技术支持处理。父主题：显卡故障诊断及处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

如何处理Nouveau驱动未禁用导致的问题问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像（从ECS普通虚拟机导出的镜像或其他来源的私有镜像）。判断方式执行以下命令，查看Linux内核环缓冲区中的错误关键字信息。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

处理方法推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本，按需安装。 GPU加速型实例自动安装GPU驱动（Linux） GPU加速型实例自动安装GPU驱动（Windows）如果自动安装驱动脚本中无用户需要的目标软件版本，请联系技术支持处理。父主题：

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

动的公共镜像，或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动（Linux） GPU加速型实例自动安装GPU驱动（Windows）如果用户已安装驱动，但驱动不匹配使用场景，请卸载驱动后重新安装。请参考安装GPU驱动。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

版本配套关系：https://docs.nvidia.com/grid/index.html 处理方法重启GPU弹性云服务器。若显示适配器恢复正常，则恢复完成。若仍异常，则执行下一步。请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。如果用户使用的是vGPU实例，且实例驱动版本与主机版本不匹配，请重装版本匹配的驱动软件。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

error较多，继续诊断是否达到换卡条件：执行nvidia-smi –r命令，重置GPU。执行nvidia-smi --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何将扩容系统盘的空白分区在线扩容到末尾的root分区？ - 弹性云服务器 ECS

如何将扩容系统盘的空白分区在线扩容到末尾的root分区？操作场景弹性云服务器创建成功后，如果发现系统盘分区的容量大小和实际创建的系统盘大小不一致，可以将空白分区扩容到根分区，扩容系统盘的空白空间。本节介绍了怎样将空白分区在线扩容到末尾的root分区。操作步骤以CentOS

帮助中心 > 弹性云服务器 ECS > 常见问题 > 磁盘分区/挂载/扩容
异构类实例安装支持对应监控的CES Agent（Windows） - 弹性云服务器 ECS

如果您的弹性云服务器未安装GPU驱动，可参见（推荐）自动安装GPU加速型ECS的GPU驱动（Windows）。安装GPU驱动需使用默认路径。 GPU驱动安装完后，需重启GPU加速型实例，否则可能导致采集GPU指标及上报GPU事件失败。 GPU驱动正常安装后，最多10分钟将在控制台看到采集到的GPU指标数据。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 使用CES监控ECS
SCSI磁盘IO压力大时，在线并发扩容失败怎么办？ - 弹性云服务器 ECS

SCSI磁盘IO压力大时，在线并发扩容失败怎么办？问题描述 Linux系统、SCSI类型磁盘的云服务器进行在线并发（大于10个）扩容，扩容之后部分磁盘容量实际未发生变化。例如，将磁盘容量由1G在线并发扩容到2G后，执行lsblk命令查看磁盘容量，发现sdb/sdc/sdd/sdr的磁盘容量没有发生变化。

帮助中心 > 弹性云服务器 ECS > 故障排除 > 磁盘空间管理
鲲鹏CentOS 7和中标麒麟NKASV 7云服务器使用GNOME图形化后鼠标不可用怎么办？ - 弹性云服务器 ECS

可能原因 x86云服务器使用了cirrus虚拟显卡，鲲鹏云服务器使用的是virtio GPU。鼠标显示有两种方式，分别称为Software Cursor和Hardware Cursor。 virtio GPU默认使用Hardware cursor，hardware cursor会依赖VN

帮助中心 > 弹性云服务器 ECS > 常见问题 > 操作系统相关问题
如何将扩容系统盘的空白分区在线扩容到非末尾的root分区？ - 弹性云服务器 ECS

如何将扩容系统盘的空白分区在线扩容到非末尾的root分区？操作场景弹性云服务器创建成功后，如果发现系统盘分区的容量大小和实际创建的系统盘大小不一致，可以将空白分区扩容到根分区，扩容系统盘的空白空间。本节介绍了怎样将空白分区在线扩容到非末尾的root分区。操作步骤以CentOS

帮助中心 > 弹性云服务器 ECS > 常见问题 > 磁盘分区/挂载/扩容
异构类实例安装支持对应监控的CES Agent（Linux） - 弹性云服务器 ECS

已配置委托，配置方法参考如何配置委托？。实例已安装对应驱动。 GPU加速型实例：已安装GPU驱动。未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。如果您的弹性云服务器未安装GPU驱动，可参见（推荐）自动安装GPU加速型ECS的GPU驱动（Linux）。 AI加速型实例：已安装NPU驱动

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 使用CES监控ECS
规格清单（CloudPond） - 弹性云服务器 ECS

c7n.24xlarge.4 96 384 40/36 850 32 8 256 KVM c7n.xx.2规格类型的云服务器，仅在融合节点提供的算力中可供用户使用。表4 C6s型弹性云服务器的规格规格名称 vCPU 内存（GiB）最大带宽/基准带宽（Gbps）最大收发包能力

 帮助中心 > 弹性云服务器 ECS > 产品介绍 > 实例类型和规格 > 实例规格（CloudPond）

总条数： 142

上一页
1
2
3
4
5
...
8
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU加速云服务器出现NVIDIA内核崩溃，如何解决？ - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

如何处理显卡ERR！问题 - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

如何将扩容系统盘的空白分区在线扩容到末尾的root分区？ - 弹性云服务器 ECS

异构类实例安装支持对应监控的CES Agent（Windows） - 弹性云服务器 ECS

SCSI磁盘IO压力大时，在线并发扩容失败怎么办？ - 弹性云服务器 ECS

鲲鹏CentOS 7和中标麒麟NKASV 7云服务器使用GNOME图形化后鼠标不可用怎么办？ - 弹性云服务器 ECS

如何将扩容系统盘的空白分区在线扩容到非末尾的root分区？ - 弹性云服务器 ECS

异构类实例安装支持对应监控的CES Agent（Linux） - 弹性云服务器 ECS

规格清单（CloudPond） - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线