检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理
竞享模式的竞价计费型实例、包含本地盘(如磁盘增强型、超高I/O型、H2型、P1型、P2型)、FPGA卡(如Fp1型、Fp1c型)或裸金属类型的按需/竞价计费型实例,关机后仍然计费。如果停止计费,需删除弹性云服务器。
GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果用户已安装驱动,但驱动不匹配使用场景,请卸载驱动后重新安装。请参考安装GPU驱动。 父主题: 非硬件故障自恢复处理方法
CentOS系统: mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak dracut -v /boot/initramfs-$(uname -r).img $(uname -r) 执行以下命令,重启云服务器
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing
处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。 如果回显正常,且能查询到驱动版本,驱动版本是GRID驱动的版本,则说明已安装GRID驱动。
如何处理升级内核后,驱动不可用问题 问题描述 客户执行nvidia-smi,报错failded to initialize NVML: Driver/library version mismatch。 客户执行nvidia-smi,报错NVIDIA-SMI has failed because
父主题: 生命周期管理
竞享模式的竞价计费型实例、包含本地盘(如磁盘增强型、超高I/O型、H2型、P1型、P2型)、FPGA卡(如Fp1型、Fp1c型)或裸金属类型的按需/竞价计费型实例,关机后仍然计费。如果停止计费,需删除弹性云服务器。
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
父虚拟机 父虚拟机是一个能够将其CPU及内存资源隔离分配给QingTian Enclave的ECS实例。这些资源能够在QingTian Enclave的生存周期内被其使用。
QingTian Enclave(从虚拟机) 裸金属实例不支持QingTian Enclave。 必须为Linux操作系统。
版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。
GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果自动安装驱动脚本中无用户需要的目标软件版本,请联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
表3 Sys-WebServer安全组规则 规则方向 策略 类型 协议端口 目的地址/源地址 描述 入方向规则 允许 IPv4 ICMP: 全部 源地址:0.0.0.0/0 针对全部IPv4协议,允许在云服务器上使用ping命令验证网络的连通性。
证明文档 证明文档用于证明QingTian Enclave实例的可信度量结果。证明文档由QingTianHypervisor生成,文档内容包括PCR列表、QingTianPKI证书链、密码算法声明以及Enclave应用自定义数据。
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
执行cat /var/log/secure查看secure日志,发现类似如下错误信息。
original_name String 云服务器规格名称。 在微版本2.47及以上版本支持。 extra_specs Object flavor扩展字段请参考:os_extra_specs(flavor)字段数据结构说明 在微版本2.47及以上版本支持。
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修