弹性云服务器 ECS-GPU实例故障分类列表
GPU实例故障分类列表
GPU实例故障的分类列表如表1所示。
是否可恢复故障 |
故障类型 |
相关文档 |
---|---|---|
可恢复故障,可按照相关文档自行恢复 |
镜像配置问题 |
|
ECC错误 |
||
内核升级问题 |
||
GPU掉卡问题 |
||
显卡ERR! |
||
软件安装问题 |
||
驱动兼容性问题 |
||
Xid问题 |
||
显卡被禁用 |
||
镜像问题 |
||
License问题 |
||
不可恢复故障,需联系技术支持处理 |
InfoROM错误 |
|
ECC错误 |
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 |
|
如何处理ECC ERROR:执行nvidia-smi存在S RAM 的ECC错误(V100显卡) |
||
GPU掉卡 |
||
温度过高问题 |
||
驱动安装报错 |
||
Xid报错 |