检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
txt格式保存在本地,保存公钥文件。 将公钥文件导入管理控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 在“密钥对”页面,单击“导入密钥对”。 将“.txt”格式文本文档中的公钥内容粘贴至“Public
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
若不慎遗失,您可以通过重置密钥对的方式,重新为弹性云服务器绑定密钥对。 若已授权托管私钥,可根据需要将托管的私钥导出使用,详细内容请参见导出私钥。 勾选“我已经阅读并同意《密钥对管理服务免责声明》” 单击“确定” 相关操作 如果私钥文件丢失,您可以通过“重置密钥对”功能重新配置弹性云服务器的密钥对。 如果私
已挂载数据盘至云服务器,且该数据盘未初始化。 已登录云服务器。 弹性云服务器请参见登录弹性云服务器。 裸金属服务器请参见登录裸金属服务器。 操作指导 在云服务器桌面,单击桌面下方的。 弹出“服务器管理器”窗口,如图1所示。 图1 服务器管理器(Windows 2012) 在“服务器管理器”页面右上方选择“工具
问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、EulerOS操作系统云服务器。 根因分析
可用区之间的数据传输是否需要收费? 同一区域下的可用区不收费,跨区域的可用区则需要收费。 父主题: 区域与可用区
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何使用自动化工具配置华为云镜像源(x86_64和鲲鹏)? 操作场景 更新弹性云服务器的系统或者软件时,可以连接Internet,通过外部镜像源提供相关服务。但是,如果弹性云服务器无法访问Internet,或者外部镜像源提供的服务不稳定时,可以使用华为云提供的一键配置脚本完成镜像源配置并进行更新。
5后,系统由完整模式Full变为了核心模式Core,没有启用系统桌面。 处理方法 恢复过程就是由核心模式切换到完整模式的过程,步骤如下: 登录弹性云服务器。 单击右上角的“Send CtrlAltDel”按钮,打开任务管理器。 选择“文件 > 运行新任务”。 系统打开“新建任务”窗口。 图1
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
Web访问超时系统日志打印:nf_conntrack:table full, dropping packet 问题现象 客户端访问web时出现time out。 服务端系统日志/var/log/messages打印kernel: nf_conntrack:table full, dropping packet。
communicate with the NVIDIA diver。 判断方式 执行以下命令,查看当前内核版本。 uname -r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办? 问题描述 在弹性云服务器运行时,一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高。 图1 查看虚拟内存占用情况 问题根因 应用程序使用内存的时候通过glibc的内存池来提供,glibc 2.10之前的版本中,只有一个内存池,称为main
本。 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。 处理方法 如果用户未安装驱动,请自行安装驱动,或切换带驱动的公共镜像,或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动(Linux)