搜索_华为云

如何处理显卡ERR！问题 - 弹性云服务器 ECS

示ERR！处理方法如果当前用户业务正常，仅nvidia-smi执行后存在ERR!显示问题，无需处理。如果当前业务已经受到影响，迁移虚拟机，再根据故障信息收集收集故障信息后联系技术支持处理。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
查询API版本信息列表（废弃） - 弹性云服务器 ECS

string API版本的状态。 CURRENT，这是使用的API的首选版本 SUPPORTED，这是一个较老的，但仍然支持的API版本。 DEPRECATED，一个被废弃的API版本，该版本将被删除。 version string 如果API的这个版本支持微版本，则支持最大的微版本。如果不支持微版本，这将是空字符串。

帮助中心 > 弹性云服务器 ECS > API参考 > 历史API > 查询API版本信息（OpenStack Nova API）
如何处理GPU掉卡问题 - 弹性云服务器 ECS

如何处理GPU掉卡问题问题描述执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。如上图所示，执行nvidia-smi命令查询到7张显卡，实际该机型应有8张显卡。判断方式执行以下命令，显卡的数量与实际规格对应的显卡数量一致，且显卡在位状态正常（rev a1），请继

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
创建安全组规则（废弃） - 弹性云服务器 ECS

相关联的安全组ID，UUID格式。 ip_protocol 是 String IP协议：icmp，tcp，或者udp from_port 是 Integer 起始端口，范围1-65535，且不大于to_port 。当协议类型为icmp时，from_port为icmp协议的type，范围是0-255。

帮助中心 > 弹性云服务器 ECS > API参考 > 历史API > 安全组管理（OpenStack Nova API）
为什么操作系统实际版本与购买时镜像版本不一致？ - 弹性云服务器 ECS

问题现象在云服务器执行以下命令查看系统当前版本： /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2（或者低于7.6的其他版本）。本节操作适用于CentOS、EulerOS操作系统云服务器。根因分析

 帮助中心 > 弹性云服务器 ECS > 故障排除 > 操作系统类（Linux）
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

-r 根据不同的系统在服务器中执行以下命令，查看安装驱动时的内核版本。 CentOS：find /usr/lib/modules -name nvidia.ko Ubuntu：find /lib/modules -name nvidia.ko 如果当前内核版本与安装驱动时的内核版本不

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
EIP资源在什么情况下会被冻结，如何解除被冻结的EIP资源？ - 弹性云服务器 ECS

EIP绑定的实例对外有攻击被冻结 EIP资源绑定的服务器如果对外有攻击等安全违规行为，即被冻结状态，在控制台上显示为冻结（违规冻结）。被冻结的资源不可用，也不能修改、删除。若要解除冻结状态，请提交工单。您可以参考更换弹性公网IP为实例更换EIP。 EIP绑定的实例涉嫌违规被冻结

 帮助中心 > 弹性云服务器 ECS > 常见问题 > 弹性公网IP类
查询浮动IP资源池列表（废弃） - 弹性云服务器 ECS

接口约束接口参数为：router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET /v2.1/{project_id}/os-floating-ip-pools 参数说明请参见表1。表1 参数说明

 帮助中心 > 弹性云服务器 ECS > API参考 > 历史API > 浮动IP管理（OpenStack Nova API）
查询安全组列表（废弃） - 弹性云服务器 ECS

说明： ICMP的消息类型由报文中的类型字段和代码字段共同决定，具体映射关系请参见《虚拟私有云接口参考》的“附录 > 安全组规则icmp协议名称对应关系表”章节。其中，字段port_range_min表示ICMP的类型字段，port_range_max表示ICMP的代码字段。 to_port

帮助中心 > 弹性云服务器 ECS > API参考 > 历史API > 安全组管理（OpenStack Nova API）
查询安全组详细信息(废弃) - 弹性云服务器 ECS

示ICMP的类型字段（type），范围是0-255。说明： ICMP的消息类型由报文中的类型字段和代码字段共同决定，具体映射关系请参见《虚拟私有云接口参考》的“附录 > 安全组规则icmp协议名称对应关系表”章节。其中，字段port_range_min表示ICMP的类型字段，p

帮助中心 > 弹性云服务器 ECS > API参考 > 历史API > 安全组管理（OpenStack Nova API）
如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

问题描述业务调度到某个GPU节点后，发现业务异常，调度到其他节点时正常。某台虚拟机显存使用率突然降低。判断方式执行以下命令，查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0，

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡）问题原因显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令查看显卡信息。如果在volatile Uncorr. ECC下发现存在ecc

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
Linux操作系统执行passwd命令重置密码失败提示：Authentication token manipulation error - 弹性云服务器 ECS

root用户用passwd命令修改管理员用户以及普通用户的密码时失败，提示passwd:Authentication token manipulation error。根因分析出现该问题通常是密码文件的属性的问题导致，也有可能是根目录空间满。执行以下命令查看存放用户和密码的文件（/etc/passwd和/etc/shadow）属性。

帮助中心 > 弹性云服务器 ECS > 故障排除 > 密码与密钥对
如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

可能是因为显卡过热，用户先停止业务，待显卡缓解过热后再执行nvidia-smi命令，查看ERR!是否消失。如果回显正常，建议用户调整下业务，限制显卡运行的最大功率。如果仍未恢复正常，根据故障信息收集收集故障信息后联系技术支持处理。父主题：显卡故障诊断及处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错：Failed to restart

帮助中心 > 弹性云服务器 ECS > 故障排除 > 操作系统类（Linux）
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错问题原因 XID 说明 32 Invalid or corrupted push buffer stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

问题原因某种健全性检查没有通过，GPU驱动程序不会使用或信任其内容（某些内容未被使用）。问题影响可能影响ECC相关非易失数据的记录，从而导致本该隔离的GPU内存页面继续使用。处理方法用户停止业务并执行业务迁移。执行业务迁移后，根据故障信息收集收集故障信息后联系技术支持处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令，查看显卡信息。如果在volatile Uncorr. ECC下ecc error > 0，执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。如果在volatile

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法

总条数： 1198

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何处理显卡ERR！问题 - 弹性云服务器 ECS

查询API版本信息列表（废弃） - 弹性云服务器 ECS

如何处理GPU掉卡问题 - 弹性云服务器 ECS

创建安全组规则（废弃） - 弹性云服务器 ECS

为什么操作系统实际版本与购买时镜像版本不一致？ - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

EIP资源在什么情况下会被冻结，如何解除被冻结的EIP资源？ - 弹性云服务器 ECS

查询浮动IP资源池列表（废弃） - 弹性云服务器 ECS

查询安全组列表（废弃） - 弹性云服务器 ECS

查询安全组详细信息(废弃) - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

Linux操作系统执行passwd命令重置密码失败提示：Authentication token manipulation error - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线