检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
您的服务。 目前仅华北-北京一的TCP 25端口出方向默认被封禁,其他区域TCP 25端口不会封禁。 解决方案 如果您需要使用华为云上的云服务器对外部发送邮件,建议您使用云速邮箱。 建议您使用第三方邮件服务商支持的465端口。 父主题: 弹性公网IP类
communicate with the NVIDIA diver。 判断方式 执行以下命令,查看当前内核版本。 uname -r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find
Linux实例执行命令或启动服务时出现错误:Cannot allocate memory 问题描述 Linux操作系统的ECS实例内存充足,但是在执行命令或启动服务时,出现错误提示“Cannot allocate memory”。 命令及执行结果如下: root@localhost:~#
查询浮动IP资源池列表(废弃) 功能介绍 查询浮动IP资源池列表。 当前API已废弃,请使用"查询网络"。 接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET
pip安装软件时出现错误:command ´gcc´ failed with exit status 1 问题描述 安装Python库软件时,需配置pip源。以中国科技大学镜像源为例: [root@test home]# cat /root/.pip/pip.conf [global]
通过puttygen.exe工具创建的密钥对,在导入管理控制台使用时,系统提示导入公钥文件失败。 可能原因 公钥内容的格式不符合系统要求。 当用户使用puttygen.exe工具创建密钥对时,如果使用puttygen.exe工具的“Save public key”按钮保存公钥,公钥内
/dev/xvda1: swap,/dev/xvda2: root)的扩容场景。 执行以下命令,查询当前弹性云服务器的分区情况。 parted -l /dev/xvda [root@sluo-ecs-5e7d ~]# parted -l /dev/xvda Disk /dev/xvda: 53
一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办? 问题描述 在弹性云服务器运行时,一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高。 图1 查看虚拟内存占用情况 问题根因 应用程序使用内存的时候通过glibc的内存池来提供,glibc 2.10之前的版本中,只有一个内存池,称为main
显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持检查硬件是否存在问题。 如果风扇显示ERR!,可能是因为显卡过热,用户先停止业务,待
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域? 可以,但是不建议这种部署方式。 建议将一个应用软件内的不同部件部署到同一个区域,这样不同部件之间的通信可以采用内网网络通信,既可以节省因采用公网网络通信带来的带宽费用,又可以保证不同部件之间的网络通信质量。 父主题:
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
timestamp --format=csv,如果连续5次出现了double bit ecc错误,则联系技术支持换卡处理;否则,重置GPU后检查用户业务是否恢复正常,如果恢复正常则显卡可以继续使用。 父主题: 显卡故障诊断及处理方法
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc