检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU加速云服务器出现NVIDIA内核崩溃,如何解决? 问题描述 GPU加速型云服务器在运行过程中发生crash,重启云服务器后检查日志,发现没有打印NVIDIA驱动堆栈日志。 图1 堆栈日志信息 可能原因 云服务器在运行过程中遇到NVIDIA官方驱动bug,导致云服务器内核崩溃。
Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi -r 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q
License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,询问用户后确认用户购
13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing, 非硬件故障,可能是自身软件错误。 详情可以参考NVI
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令,查看GPU信息。 nvidia-smi 如果回显正常,则问题已修复。 如果回显仍报错,请参考GPU驱动不可用中的处理方法进行操作。 父主题: 非硬件故障自恢复处理方法
显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile
not responding to commands”,说明是总线脱落,请联系技术支持人员换卡。 如果仍未确认问题,请根据故障信息收集收集GPU故障后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果自动安装驱动脚本中无用户需要的目标软件版本,请联系技术支持处理。 父主题:
动的公共镜像,或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果用户已安装驱动,但驱动不匹配使用场景,请卸载驱动后重新安装。请参考安装GPU驱动。 父主题: 非硬件故障自恢复处理方法
版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。 如果用户使用的是vGPU实例,且实例驱动版本与主机版本不匹配,请重装版本匹配的驱动软件。
error较多,继续诊断是否达到换卡条件: 执行nvidia-smi –r命令,重置GPU。 执行nvidia-smi --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages
如何将扩容系统盘的空白分区在线扩容到末尾的root分区? 操作场景 弹性云服务器创建成功后,如果发现系统盘分区的容量大小和实际创建的系统盘大小不一致,可以将空白分区扩容到根分区,扩容系统盘的空白空间。 本节介绍了怎样将空白分区在线扩容到末尾的root分区。 操作步骤 以CentOS
如果您的弹性云服务器未安装GPU驱动,可参见(推荐)自动安装GPU加速型ECS的GPU驱动(Windows)。 安装GPU驱动需使用默认路径。 GPU驱动安装完后,需重启GPU加速型实例,否则可能导致采集GPU指标及上报GPU事件失败。 GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。
SCSI磁盘IO压力大时,在线并发扩容失败怎么办? 问题描述 Linux系统、SCSI类型磁盘的云服务器进行在线并发(大于10个)扩容,扩容之后部分磁盘容量实际未发生变化。 例如,将磁盘容量由1G在线并发扩容到2G后,执行lsblk命令查看磁盘容量,发现sdb/sdc/sdd/sdr的磁盘容量没有发生变化。
可能原因 x86云服务器使用了cirrus虚拟显卡,鲲鹏云服务器使用的是virtio GPU。鼠标显示有两种方式,分别称为Software Cursor和Hardware Cursor。 virtio GPU默认使用Hardware cursor,hardware cursor会依赖VN
如何将扩容系统盘的空白分区在线扩容到非末尾的root分区? 操作场景 弹性云服务器创建成功后,如果发现系统盘分区的容量大小和实际创建的系统盘大小不一致,可以将空白分区扩容到根分区,扩容系统盘的空白空间。 本节介绍了怎样将空白分区在线扩容到非末尾的root分区。 操作步骤 以CentOS
已配置委托,配置方法参考如何配置委托?。 实例已安装对应驱动。 GPU加速型实例:已安装GPU驱动。 未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。 如果您的弹性云服务器未安装GPU驱动,可参见(推荐)自动安装GPU加速型ECS的GPU驱动(Linux)。 AI加速型实例:已安装NPU驱动
c7n.24xlarge.4 96 384 40/36 850 32 8 256 KVM c7n.xx.2规格类型的云服务器,仅在融合节点提供的算力中可供用户使用。 表4 C6s型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力