搜索_华为云

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

调度到其他节点时正常。某台虚拟机显存使用率突然降低。判断方式执行以下命令，查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0，执行以下命令，查看该GPU卡是否存在待隔离页。 nvidia-smi

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
（推荐）通过管理控制台创建密钥对 - 弹性云服务器 ECS

若不慎遗失，您可以通过重置密钥对的方式，重新为弹性云服务器绑定密钥对。若已授权托管私钥，可根据需要将托管的私钥导出使用，详细内容请参见导出私钥。勾选“我已经阅读并同意《密钥对管理服务免责声明》” 单击“确定” 相关操作如果私钥文件丢失，您可以通过“重置密钥对”功能重新配置弹性云服务器的密钥对。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 密码和密钥对管理 > 管理ECS密钥对
通过PuTTY Key Generator工具创建密钥对 - 弹性云服务器 ECS

公钥和私钥文件按照需要正确保存后，请参见导入密钥对的“复制公钥文件内容方式”，将公钥导入系统中。相关操作如果私钥文件丢失，您可以通过“重置密钥对”功能重新配置弹性云服务器的密钥对。如果私钥文件泄露，您可以通过“替换密钥对”功能使用新的密钥对替换弹性云服务器内的公钥。父主题：管理ECS密钥对

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 密码和密钥对管理 > 管理ECS密钥对
安装SQL Server - 弹性云服务器 ECS

Database Engine”的“Account Name”为“NT AUTHORITY\NETWORK SERVICE”。设置“SQL Server Analysis Services”为添加AD、DHCP、DNS、IIS服务中11~13设置的域账户及密码。图7 配置SQL

帮助中心 > 弹性云服务器 ECS > 最佳实践 > 搭建应用 > 搭建Microsoft SharePoint Server 2016
删除安全组（废弃） - 弹性云服务器 ECS

删除安全组（废弃）功能介绍删除安全组。当前API已废弃，请使用“删除安全组”。 URI DELETE /v2.1/{project_id}/os-security-groups/{security_group_id} 参数说明请参见表1。表1 参数说明参数是否必选描述

 帮助中心 > 弹性云服务器 ECS > API参考 > 历史API > 安全组管理（OpenStack Nova API）
Linux系统执行find命令时出现EXT4-fs error错误 - 弹性云服务器 ECS

本文以修复ext4文件系统为例，其他文件系统错误会有差异。登录弹性云服务器。执行以下命令，卸载已经挂载的分区（此处以xvdb1的挂载点为/mnt/sdc为例）。 umount /mnt/sdc 执行以下命令，修复已损坏的文件系统。 fsck -y /mnt/sdc 修复需要较长时间，在此期间请勿做其他操作。

帮助中心 > 弹性云服务器 ECS > 故障排除 > 磁盘空间管理
删除安全组规则（废弃） - 弹性云服务器 ECS

删除安全组规则（废弃）功能介绍删除安全组规则。当前API已废弃，请使用“删除安全组规则”。 URI DELETE /v2.1/{project_id}/os-security-group-rules/{security_group_rule_id} 参数说明请参见表1。表1

帮助中心 > 弹性云服务器 ECS > API参考 > 历史API > 安全组管理（OpenStack Nova API）
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

communicate with the NVIDIA diver。判断方式执行以下命令，查看当前内核版本。 uname -r 根据不同的系统在服务器中执行以下命令，查看安装驱动时的内核版本。 CentOS：find /usr/lib/modules -name nvidia

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

执行以下命令，查看内核版本，检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep kernel-devel #查看kernel-devel版本如果内核版本不一致，请重装驱动。如果内核版本一致，则执行下一步。查看dmesg日志，检查是否存在NVRM报错。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理显卡ERR！问题 - 弹性云服务器 ECS

示ERR！处理方法如果当前用户业务正常，仅nvidia-smi执行后存在ERR!显示问题，无需处理。如果当前业务已经受到影响，迁移虚拟机，再根据故障信息收集收集故障信息后联系技术支持处理。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messages日志发现有如下报错，询问用户

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

执行nvidia-smi命令，查看风扇是否正常。如果风扇转速为0，说明风扇可能存在损坏，用户停止业务，执行业务迁移后，根据故障信息收集收集故障信息后联系技术支持检查硬件是否存在问题。如果风扇显示ERR!，可能是因为显卡过热，用户先停止业务，待显卡缓解过热后再执行nvidia-smi命令，查看ERR!是否消失。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错问题原因 XID 说明 32 Invalid or corrupted push buffer stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令，查看显卡信息。如果在volatile Uncorr. ECC下ecc error > 0，执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。如果在volatile

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

件，安装过程出错问题问题描述用户使用不带驱动的公共镜像或私有镜像，自行安装NVIDIA驱动软件包、CUDA软件包，在安装过程中脚本执行报错。判断方式确认用户使用的镜像文件。确认用户的NVIDIA软件包来源。确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错：Failed to restart

帮助中心 > 弹性云服务器 ECS > 故障排除 > 操作系统类（Linux）
如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

问题原因某种健全性检查没有通过，GPU驱动程序不会使用或信任其内容（某些内容未被使用）。问题影响可能影响ECC相关非易失数据的记录，从而导致本该隔离的GPU内存页面继续使用。处理方法用户停止业务并执行业务迁移。执行业务迁移后，根据故障信息收集收集故障信息后联系技术支持处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法

总条数： 1197

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

（推荐）通过管理控制台创建密钥对 - 弹性云服务器 ECS

通过PuTTY Key Generator工具创建密钥对 - 弹性云服务器 ECS

安装SQL Server - 弹性云服务器 ECS

删除安全组（废弃） - 弹性云服务器 ECS

Linux系统执行find命令时出现EXT4-fs error错误 - 弹性云服务器 ECS

删除安全组规则（废弃） - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理显卡ERR！问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

NetworkManager服务无法启动，报错：Failed to restart NetworkManager.service: Unit NetworkManager.service is masked - 弹性云服务器 ECS

如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线