-
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 - 弹性云服务器 ECS
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
-
NetworkManager服务无法启动,报错:Failed to restart NetuorkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS
service: Unit NetworkManager.service is masked。 可能原因 服务单元被禁用,导致NetworkManager服务无法启动。 处理方法 执行以下命令,解除服务单元mask状态。 systemctl unmask NetworkManager 父主题:
-
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) - 弹性云服务器 ECS
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
-
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 - 弹性云服务器 ECS
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
-
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。