-
SSH密钥无法登录,报错Authentication refused: bad ownership or modes for directory /root - 弹性云服务器 ECS
SSH密钥无法登录,报错Authentication refused: bad ownership or modes for directory /root 问题描述 SSH密钥无法登录,报错Authentication refused: bad ownership or modes
-
重装操作系统时是否可以选择其他操作系统? - 弹性云服务器 ECS
重装操作系统时是否可以选择其他操作系统? 重装操作系统只支持使用原镜像进行系统重装,不支持使用新的系统镜像。如需使用新的系统镜像,请参见切换弹性云服务器的操作系统。 父主题: 重装操作系统类
-
Linux实例执行命令或启动服务时出现错误:Cannot allocate memory - 弹性云服务器 ECS
Linux实例执行命令或启动服务时出现错误:Cannot allocate memory 问题描述 Linux操作系统的ECS实例内存充足,但是在执行命令或启动服务时,出现错误提示“Cannot allocate memory”。 命令及执行结果如下: root@localhost:~#
-
如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
-
重装操作系统是否需要收费? - 弹性云服务器 ECS
重装操作系统是否需要收费? 重装操作系统提供以原镜像进行系统重装的功能,不会收取额外费用。 父主题: 重装操作系统类
-
如何处理GPU掉卡问题 - 弹性云服务器 ECS
如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev a1),请继续按照处理方法处理;如果查找不到显卡或者显示状态为rev ff,请根据显卡故障诊断及处理方法进行
-
查询浮动IP资源池列表(废弃) - 弹性云服务器 ECS
查询浮动IP资源池列表(废弃) 功能介绍 查询浮动IP资源池列表。 当前API已废弃,请使用"查询网络"。 接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET
-
重装/切换操作系统/变更规格对磁盘数据有影响吗? - 弹性云服务器 ECS
变更规格 功能简介 还原服务器的初始化状态。 重装前后操作系统不发生改变。 将现有的操作系统切换为不同镜像类型的操作系统。 中国大陆外区域(包括中国港澳台及其他国家、地区)不支持Windows镜像和Linux镜像之间的切换。 更多约束限制请参考切换操作系统。 云服务器规格无法满足业务需
-
Linux操作系统执行passwd命令重置密码失败提示:Authentication token manipulation error - 弹性云服务器 ECS
Linux操作系统执行passwd命令重置密码失败提示:Authentication token manipulation error 问题现象 root用户用passwd命令修改管理员用户以及普通用户的密码时失败,提示passwd:Authentication token manipulation
-
如何处理用户安装了GRID驱动,但未购买、配置License问题 - 弹性云服务器 ECS
配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。 父主题: 非硬件故障自恢复处理方法
-
EIP资源在什么情况下会被冻结,如何解除被冻结的EIP资源? - 弹性云服务器 ECS
EIP资源绑定的服务器如果对外有攻击等安全违规行为,即被冻结状态,在控制台上显示为冻结(违规冻结)。被冻结的资源不可用,也不能修改、删除。若要解除冻结状态,请提交工单。 您可以参考更换弹性公网IP为实例更换EIP。 EIP绑定的实例涉嫌违规被冻结 EIP资源绑定的服务器涉嫌违规行为,
-
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS
grep kernel-devel #查看kernel-devel版本 如果内核版本不一致,请重装驱动。 如果内核版本一致,则执行下一步。 查看dmesg日志,检查是否存在NVRM报错。 如果报错“NVRM: fallen off the bus and is not responding
-
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 - 弹性云服务器 ECS
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
-
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
-
通过puttygen.exe工具创建的密钥对,导入管理控制台失败怎么办? - 弹性云服务器 ECS
txt格式保存在本地,保存公钥文件。 将公钥文件导入管理控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 在“密钥对”页面,单击“导入密钥对”。 将“.txt”格式文本文档中的公钥内容粘贴至“Public
-
如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
-
NetworkManager服务无法启动,报错:Failed to restart NetuorkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS
service: Unit NetworkManager.service is masked。 可能原因 服务单元被禁用,导致NetworkManager服务无法启动。 处理方法 执行以下命令,解除服务单元mask状态。 systemctl unmask NetworkManager 父主题:
-
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 - 弹性云服务器 ECS
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
-
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
-
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) - 弹性云服务器 ECS
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc