检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
有如下报错,询问用户后确认用户购买了License但是未配置License。 处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。 如果回显正常,且能查询到驱动版本,驱动
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
如何处理升级内核后,驱动不可用问题 问题描述 客户执行nvidia-smi,报错failded to initialize NVML: Driver/library version mismatch。 客户执行nvidia-smi,报错NVIDIA-SMI has failed because
ndows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果用户使用的是vGPU实例,确认实例安装的驱动与主机的驱动版本是否匹配。 登录实例所在主机。 执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs
处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果自动安装驱动脚本中无用户需要的目标软件版本,请联系技术支持处理。 父主题:
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
当云服务器使用共享资源型实例时,您可以按如下步骤进行排查: 问题定位:检查当前云服务器的规格类型,共享型和独享型实例的说明请参考实例类型。 问题处理:如果对业务稳定性有较高要求,建议您通过变更规格操作将共享型实例变更为独享型实例。 当Linux实例带宽流量过高或CPU使用率高时,您可以按如下步骤进行排查: 问题定位
弹性云服务器怎样停止计费? 按需计费的普通实例(不含本地盘和FPGA卡的实例,非裸金属实例)、竞价模式的竞价计费普通实例(不含本地盘和FPGA卡的实例,非裸金属实例),关机后,基础资源(vCPU、内存、镜像、GPU)不再计费,绑定的云硬盘(包括系统盘、数据盘)、弹性公网IP、带宽
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
处理方法 如果用户未安装驱动,请自行安装驱动,或切换带驱动的公共镜像,或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动(Linux) GPU加速型实例自动安装GPU驱动(Windows) 如果用户已安装驱动,但驱动不匹配使用场景,请卸载驱动后重新安装。请参考安装GPU驱动。
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
弹性云服务器释放时,磁盘随实例释放策略。 true:磁盘随实例释放。 false:磁盘不随实例释放。 说明: 不支持修改包年/包月计费模式的磁盘。 不支持修改共享盘。 不支持修改系统盘。 响应消息 无 请求示例 修改云服务器挂载的磁盘属性为“磁盘随实例释放”。 PUT https
针对全部IPv4协议,允许安全组内的实例可使用任何协议和端口互相通信,确保安全组内实例网络互通。 入方向 允许 IPv6 全部 源地址:默认安全组(default) 针对全部IPv6协议,允许安全组内的实例可使用任何协议和端口互相通信,确保安全组内实例网络互通。 出方向 允许 IPv4
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
购买弹性云服务器时,通过选择的镜像来安装云服务器的操作系统。您可以选择公共镜像,或公共镜像制作成的私有镜像来安装云服务器的操作系统。根据实际的应用场景编程语言选择不同操作系统的镜像。关于镜像的选择请参考Windows或Linux操作系统镜像怎么选? 云服务器在使用过程中如果发现操作系统不合适
特定QingTian Enclave实例对指定操作的访问权限。 灵活性 您可以灵活地创建具有不同VCPU数量和内存大小的QingTian Enclave实例。QingTian Enclave是软硬结合的方案,与前端处理器类型无关,可以与任何编程语言或框架兼容。此外,由于QingTian
华为云会尽可能保障竞享实例正常运行,但在极端情况下会中断释放该类实例,实例被中断时会秒级释放,请在使用竞享实例时做好备份策略。 在保障周期内由云平台中断竞享实例,当前周期不计费。在保障周期内用户主动释放实例,当前周期按使用时长计费。 一般情况下,竞享实例回收会优先选择使用时长较短的实例中断回收