-
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 - 弹性云服务器 ECS
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
-
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) - 弹性云服务器 ECS
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
-
NetworkManager服务无法启动,报错:Failed to restart NetuorkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS
service: Unit NetworkManager.service is masked。 可能原因 服务单元被禁用,导致NetworkManager服务无法启动。 处理方法 执行以下命令,解除服务单元mask状态。 systemctl unmask NetworkManager 父主题:
-
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
-
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 - 弹性云服务器 ECS
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile