检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PAGE_RETIREMENT 如果Pending Page Blacklist 为No,说明当前已无待隔离页。 方法二: 执行以下命令,重启服务器。 reboot 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending
若不慎遗失,您可以通过重置密钥对的方式,重新为弹性云服务器绑定密钥对。 若已授权托管私钥,可根据需要将托管的私钥导出使用,详细内容请参见导出私钥。 勾选“我已经阅读并同意《密钥对管理服务免责声明》” 单击“确定” 相关操作 如果私钥文件丢失,您可以通过“重置密钥对”功能重新配置弹性云服务器的密钥对。 如果私钥
问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、EulerOS操作系统云服务器。 根因分析
img.bak dracut -v /boot/initramfs-$(uname -r).img $(uname -r) 执行以下命令,重启云服务器。 reboot 父主题: 非硬件故障自恢复处理方法
如何使用自动化工具配置华为云镜像源(x86_64和鲲鹏)? 操作场景 更新弹性云服务器的系统或者软件时,可以连接Internet,通过外部镜像源提供相关服务。但是,如果弹性云服务器无法访问Internet,或者外部镜像源提供的服务不稳定时,可以使用华为云提供的一键配置脚本完成镜像源配置并进行更新。
导配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。 父主题: 非硬件故障自恢复处理方法
abc /add 弹性云服务器创建成功后,您可以使用新创建的用户名和密码登录弹性云服务器。 案例5 该样例介绍如何通过实例自定义数据注入,为Linux弹性云服务器更新系统软件包,并且开启httpd相关服务。注入成功后,您的弹性云服务器就可以使用httpd服务了。 实例自定义数据注入示例:
communicate with the NVIDIA diver。 判断方式 执行以下命令,查看当前内核版本。 uname -r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find
该漏洞不会引起不同弹性云服务器之间的攻击,但可能会引起如下问题: 弹性云服务器内多个应用之间,可能存在攻击。 对于同一弹性云服务器,多个账号之间可能存在攻击。 使用公共镜像的弹性云服务器,云平台会对公共镜像依次修复,不会对您的业务带来影响。 使用私有镜像的弹性云服务器,请根据漏洞影响评
txt格式保存在本地,保存公钥文件。 将公钥文件导入管理控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 在“密钥对”页面,单击“导入密钥对”。 将“.txt”格式文本文档中的公钥内容粘贴至“Public
如何将扩容系统盘的空白分区在线扩容到非末尾的root分区? 操作场景 弹性云服务器创建成功后,如果发现系统盘分区的容量大小和实际创建的系统盘大小不一致,可以将空白分区扩容到根分区,扩容系统盘的空白空间。 本节介绍了怎样将空白分区在线扩容到非末尾的root分区。 操作步骤 以CentOS
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
Linux操作系统执行passwd命令重置密码失败提示:Authentication token manipulation error 问题现象 root用户用passwd命令修改管理员用户以及普通用户的密码时失败,提示passwd:Authentication token manipulation
SP4镜像创建的弹性云服务器,内存需要大于等于4GiB时才能支持一键式重置密码功能。 弹性云服务器使用的VPC网络DHCP不能禁用。 弹性云服务器网络正常通行。 设置弹性云服务器的网卡属性为DHCP,使弹性云服务器可以动态获取IP地址。 Linux弹性云服务器的设置方法,请参见设置网卡属性为DHCP(Linux)。
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
EIP资源绑定的服务器如果对外有攻击等安全违规行为,即被冻结状态,在控制台上显示为冻结(违规冻结)。被冻结的资源不可用,也不能修改、删除。若要解除冻结状态,请提交工单。 您可以参考更换弹性公网IP为实例更换EIP。 EIP绑定的实例涉嫌违规被冻结 EIP资源绑定的服务器涉嫌违规行为
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域? 可以,但是不建议这种部署方式。 建议将一个应用软件内的不同部件部署到同一个区域,这样不同部件之间的通信可以采用内网网络通信,既可以节省因采用公网网络通信带来的带宽费用,又可以保证不同部件之间的网络通信质量。 父主题: