检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办? 问题描述 在弹性云服务器运行时,一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高。 图1 查看虚拟内存占用情况 问题根因 应用程序使用内存的时候通过glibc的内存池来提供,glibc 2.10之前的版本中,只有一个内存池,称为main
/dev/xvda1: swap,/dev/xvda2: root)的扩容场景。 执行以下命令,查询当前弹性云服务器的分区情况。 parted -l /dev/xvda [root@sluo-ecs-5e7d ~]# parted -l /dev/xvda Disk /dev/xvda:
SSH密钥无法登录,报错Authentication refused: bad ownership or modes for directory /root 问题描述 SSH密钥无法登录,报错Authentication refused: bad ownership or modes
示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep kernel-devel #查看kernel-devel版本 如果内核版本不一致,请重装驱动。 如果内核版本一致,则执行下一步。 查看dmesg日志,检查是否存在NVRM报错。
pip安装软件时出现错误:command ´gcc´ failed with exit status 1 问题描述 安装Python库软件时,需配置pip源。以中国科技大学镜像源为例: [root@test home]# cat /root/.pip/pip.conf [global]
CAP_LINUX_IMMUTABLE功能可以设置或清除这个属性。 其他文件属性可以执行以下命令查看chattr使用手册。 chattr 2.如果lsattr结果中没有限制增加或者修改的属性,则可能为根分区空间不足,可以查询根分区使用率。 df -h 处理方法则为删除根分区下不需要的文件。 处理方法
确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。 如果回显正常,且能查询到驱动版本,驱动版本是GRID驱动的版本,则说明已安装GRID驱动。 用户是否购买了License,如果已购买License是否已经配置了License。
要关闭SELinux。 处理方法 执行以下命令,临时关闭SELinux。 setenforce 0 再次执行关闭Selinux操作,确保虚拟机重启后生效。 执行以下命令,重新安装重置密码插件。 sudo sh setup.sh 如果脚本执行成功打印“cloudResetPwdAgent
EIP资源绑定的服务器如果对外有攻击等安全违规行为,即被冻结状态,在控制台上显示为冻结(违规冻结)。被冻结的资源不可用,也不能修改、删除。若要解除冻结状态,请提交工单。 您可以参考更换弹性公网IP为实例更换EIP。 EIP绑定的实例涉嫌违规被冻结 EIP资源绑定的服务器涉嫌违规行为,
执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持检查硬件是否存在问题。 如果风扇显示ERR!,可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
txt格式保存在本地,保存公钥文件。 将公钥文件导入管理控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 在“密钥对”页面,单击“导入密钥对”。 将“.txt”格式文本文档中的公钥内容粘贴至“Public
grid字样,则选择该镜像会安装GRID驱动(不包括License)。 如果用户使用的是私有镜像或其他镜像,可通过nvidia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系
可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile Uncorr. ECC下未发现ecc
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域? 可以,但是不建议这种部署方式。 建议将一个应用软件内的不同部件部署到同一个区域,这样不同部件之间的通信可以采用内网网络通信,既可以节省因采用公网网络通信带来的带宽费用,又可以保证不同部件之间的网络通信质量。 父主题:
可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile Uncorr. ECC下ecc
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart