搜索_华为云

如何处理驱动兼容性问题 - 弹性云服务器 ECS

用户执行nvidia-smi命令回显报错“No devices were found”。 No devices were found 处理方法查看云服务器的实例规格，确认用户使用的镜像信息。如果使用NVIDIA Tesla T4 GPU（例如，Pi2或G6规格），请参见T4 GPU设备显示异常进行处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

明Nouveau驱动已禁用。如果回显信息中包含nouveau关键字样，说明Nouveau驱动已安装，则需要禁用Nouveau驱动。处理方法执行如下命令编辑blacklist.conf文件。如果没有“/etc/modprobe.d/blacklist.conf”文件，请新建一个。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

com/deploy/xid-errors/index.html。处理方法尝试重新运行作业并观察Xid错误是否消失。若错误持续存在，尝试检查代码或分析日志，确认是否为程序引入的Xid故障。若确认不是程序引入，请联系技术支持处理。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

执行以下命令，查看GPU信息。 nvidia-smi 如果回显正常，则问题已修复。如果回显仍报错，请参考GPU驱动不可用中的处理方法进行操作。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

PAGE_RETIREMENT 如果3的回显结果中Pending Page Blacklist为Yes，说明存在待隔离页，需要重新加载驱动去隔离。处理方法方法一：执行以下命令，查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令，重置GPU。 nvidia-smi

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

能表现差；查看/var/log/messages日志发现有如下报错，询问用户后确认用户购买了License但是未配置License。处理方法确认用户业务使用场景是否是做图形处理，用户使用的实例规格是否满足图形处理要求。用户是否安装GRID驱动，执行nvidia-smi命令查询回显是否正常。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
简介 - 弹性云服务器 ECS
简介 - 弹性云服务器 ECS

Image）的开发和应用。 FPGA加速云服务器提供现场可编程门阵列（FPGA）及较高的计算性能配置的实例，可以适用于并行计算要求较高的应用，例如机器学习、搜索引擎、人工智能等场景。基本概念硬件开发套件（HDK）：HDK包括加速器示例、编码环境、仿真平台、自动化编译工具、代码加密和调试工具包等必备工具。

帮助中心 > 弹性云服务器 ECS > FACS用户指南
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

kernel module 'nvidia.ko'” 问题原因总线脱落。内核版本不一致。问题影响显卡驱动安装失败，显卡无法使用。处理方法执行以下命令，查看内核版本，检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如客户选择自行安装Tesla驱动，请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系，可参考Tesla驱动及CUDA工具包获取方式。处理方法如果用户未安装驱动，请自行安装驱动，或切换带驱动的公共镜像，或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动（Linux）

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

判断方式确认用户使用的镜像文件。确认用户的NVIDIA软件包来源。确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。处理方法推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本，按需安装。 GPU加速型实例自动安装GPU驱动（Linux）

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高问题原因显卡散热异常、风扇损坏。问题影响显卡温度过高，影响用户业务。处理方法执行nvidia-smi命令，查看风扇是否正常。如果风扇转速为0，说明风扇可能存在损坏，用户停止业务，执行业务迁移后，根据故障信息收集

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

com/deploy/xid-errors/index.html。处理方法执行dmesg | grep –i xid命令，查看是否存在xid报错。通知用户停止业务，执行业务迁移，并根据故障信息收集章节收集故障信息后，联系技术支持处理。父主题：显卡故障诊断及处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
WinSCP无法连接到Linux云服务器怎么办？ - 弹性云服务器 ECS

如果sftp-server文件缺失或者权限不对都会导致WinSCP连接异常，默认权限是755。处理方法如果文件缺失，在可以正常远程的情况下，通过scp或其他文件传输方式将正常云服务器上的文件传输到故障机器对应目录下。如果文件权限有变化，可以通过chmod修改文件权限为755。 chmod

帮助中心 > 弹性云服务器 ECS > 常见问题 > 文件上传/数据传输
如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡）问题原因显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令查看显卡信息。如果在volatile Uncorr. ECC下发现存在ecc error，执行nvidia-smi

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

执行nvidia-smi命令，查看驱动版本，并对照版本配套关系。版本配套关系：https://docs.nvidia.com/grid/index.html 处理方法重启GPU弹性云服务器。若显示适配器恢复正常，则恢复完成。若仍异常，则执行下一步。请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

可能影响ECC相关非易失数据的记录，从而导致本该隔离的GPU内存页面继续使用。处理方法用户停止业务并执行业务迁移。执行业务迁移后，根据故障信息收集收集故障信息后联系技术支持处理。父主题：显卡故障诊断及处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

bit ecc error错误，并无待隔离页问题原因显存可能某个地方存在异常。问题影响可能影响一个或多个GPU的相关应用程序。处理方法执行nvidia-smi命令，查看显卡信息。如果在volatile Uncorr. ECC下ecc error > 0，执行nvidia-smi

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
弹性云服务器怎么防DDoS攻击的？ - 弹性云服务器 ECS

于使目标电脑的网络或系统资源耗尽，服务暂时中断或停止，导致合法用户不能够访问正常网络服务的行为。当攻击者使用网络上多个被攻陷的电脑作为攻击机器向特定的目标发动DoS攻击时，称为分布式拒绝服务攻击（Distributed Denial of Service Attack，简称DDoS）。

帮助中心 > 弹性云服务器 ECS > 常见问题 > ECS安全排查
通过脚本批量更新ECS一键式重置密码插件（Windows） - 弹性云服务器 ECS

准备好执行机，执行机需满足的条件请参见约束与限制。需要提前准备待批量安装插件的云服务器的IP地址、Administrator用户的密码信息。执行机应该与待更新机器在同一VPC下。在执行完步骤7之后可以解绑eip。约束与限制需要选取一台操作系统为CentOS 8.2 (公共镜像)且已绑定弹性公网

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 密码和密钥对管理 > 管理ECS一键式重置密码插件
鲲鹏AI推理加速型 - 弹性云服务器 ECS

鲲鹏AI推理加速型实例kAi1s基于Atlas 300I加速卡设计，更多详细信息请参考昇腾社区。鲲鹏AI推理加速型云服务器可用于机器视觉、语音识别、自然语言处理通用技术，支撑智能零售、智能园区、机器人云大脑、平安城市等场景。规格表2 kAi1s型弹性云服务器的规格规格名称 vCPU 内存（GiB）

帮助中心 > 弹性云服务器 ECS > 产品介绍 > 实例类型和规格 > 实例规格（鲲鹏）

总条数： 591

上一页
1
2
3
4
5
...
30
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何处理驱动兼容性问题 - 弹性云服务器 ECS

如何处理Nouveau驱动未禁用导致的问题 - 弹性云服务器 ECS

如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

如何处理ECC ERROR：存在待隔离页问题 - 弹性云服务器 ECS

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

简介 - 弹性云服务器 ECS

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” - 弹性云服务器 ECS

如何处理用户使用场景与其选择的驱动、镜像不配套问题 - 弹性云服务器 ECS

如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题 - 弹性云服务器 ECS

如何处理GPU散热异常，执行nvidia-smi命令发现温度过高 - 弹性云服务器 ECS

如何处理GPU虚拟机故障，在message日志中发现存在Xid报错 - 弹性云服务器 ECS

WinSCP无法连接到Linux云服务器怎么办？ - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡） - 弹性云服务器 ECS

如何处理用户的虚拟机报错：“由于该设备有问题，Windows已将其停止”问题 - 弹性云服务器 ECS

如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff - 弹性云服务器 ECS

如何处理ECC ERROR：执行nvidia-smi -q存在double bit ecc error错误，并无待隔离页 - 弹性云服务器 ECS

弹性云服务器怎么防DDoS攻击的？ - 弹性云服务器 ECS

通过脚本批量更新ECS一键式重置密码插件（Windows） - 弹性云服务器 ECS

鲲鹏AI推理加速型 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线