检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi -r 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q
如果您的弹性云服务器未安装GPU驱动,可参见(推荐)自动安装GPU加速型ECS的GPU驱动(Windows)。 安装GPU驱动需使用默认路径。 GPU驱动安装完后,需重启GPU加速型实例,否则可能导致采集GPU指标及上报GPU事件失败。 GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。
13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing, 非硬件故障,可能是自身软件错误。 详情可以参考NVI
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令,查看GPU信息。 nvidia-smi 如果回显正常,则问题已修复。 如果回显仍报错,请参考GPU驱动不可用中的处理方法进行操作。 父主题: 非硬件故障自恢复处理方法
License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,询问用户后确认用户购
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
动的公共镜像,或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果用户已安装驱动,但驱动不匹配使用场景,请卸载驱动后重新安装。请参考安装GPU驱动。 父主题: 非硬件故障自恢复处理方法
not responding to commands”,说明是总线脱落,请联系技术支持人员换卡。 如果仍未确认问题,请根据故障信息收集收集GPU故障后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果自动安装驱动脚本中无用户需要的目标软件版本,请联系技术支持处理。 父主题:
显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile
error较多,继续诊断是否达到换卡条件: 执行nvidia-smi –r命令,重置GPU。 执行nvidia-smi --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages
版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。 如果用户使用的是vGPU实例,且实例驱动版本与主机版本不匹配,请重装版本匹配的驱动软件。
理服务器上,以此保证业务的高可用性和底层容灾能力。 故障域:同一云服务器组中分布多个故障域,指定不同故障域可以实现云服务器的故障隔离,提高业务的可靠性。 使用故障域策略可以将业务涉及到的云服务器分散部署在不同的故障域中,以此保证业务的高可用性和底层容灾能力。 云服务器组支持以下操作:
rtio GPU。鼠标显示有两种方式,分别称为Software Cursor和Hardware Cursor。 virtio GPU默认使用Hardware cursor,hardware cursor会依赖VNC客户端去显示鼠标光标的位置和形状,如果hardware cursor配置了“Let
前提条件 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 实例已安装对应驱动。 GPU加速型实例:已安装GPU驱动。 未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。 如果您的弹性云服务器未安装GPU驱动,可参见(推
阶段 相关文档 1 GPU加速型,新增P2s型弹性云服务器。 P2s型弹性云服务器采用NVIDIA Tesla V100 GPU,能够提供超高的通用计算能力,适用于AI深度学习、科学计算,在深度学习训练、科学计算、计算流体动力学、计算金融、地震分析、分子建模、基因组学等领域都能表现出巨大的计算优势。
弹性云服务器怎样停止计费? 按需计费的普通实例(不含本地盘和FPGA卡的实例,非裸金属实例)、竞价模式的竞价计费普通实例(不含本地盘和FPGA卡的实例,非裸金属实例),关机后,基础资源(vCPU、内存、镜像、GPU)不再计费,绑定的云硬盘(包括系统盘、数据盘)、弹性公网IP、带宽
04操作系统需使用添加的子账号登录图像化桌面。 对于GPU加速型弹性云服务器弹性云服务器,还需要继续配置X Server、x11vnc和lightdm。 (可选)配置X Server、x11vnc和lightdm 对于GPU加速型弹性云服务器,在安装图形化界面时,需要配置X Server、x11vnc和lightdm。