检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。 如果回显正常,且能查询到驱动版本,驱动版本是GRID驱动的版本,则说明已安装GRID驱动。 用户是否购买了License,如果已购买License是否已经配置了License。
创建安全组规则(废弃) 功能介绍 创建安全组规则。 当前API已废弃,请使用“创建安全组规则”。 URI POST /v2.1/{project_id}/os-security-group-rules 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。
可用区之间的数据传输是否需要收费? 同一区域下的可用区不收费,跨区域的可用区则需要收费。 父主题: 区域与可用区
调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0,执行以下命令,查看该GPU卡是否存在待隔离页。 nvidia-smi
您的服务。 目前仅华北-北京一的TCP 25端口出方向默认被封禁,其他区域TCP 25端口不会封禁。 解决方案 如果您需要使用华为云上的云服务器对外部发送邮件,建议您使用云速邮箱。 建议您使用第三方邮件服务商支持的465端口。 父主题: 弹性公网IP类
exe工具创建的密钥对,导入管理控制台失败怎么办? 问题描述 通过puttygen.exe工具创建的密钥对,在导入管理控制台使用时,系统提示导入公钥文件失败。 可能原因 公钥内容的格式不符合系统要求。 当用户使用puttygen.exe工具创建密钥对时,如果使用puttygen.exe工具的“Save public
搭建Discuz! 论坛网站操作流程 图1 搭建Discuz! 论坛网站操作流程 父主题: 搭建Discuz! 论坛网站
SSH密钥无法登录,报错Authentication refused: bad ownership or modes for directory /root 问题描述 SSH密钥无法登录,报错Authentication refused: bad ownership or modes
示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
要关闭SELinux。 处理方法 执行以下命令,临时关闭SELinux。 setenforce 0 再次执行关闭Selinux操作,确保虚拟机重启后生效。 执行以下命令,重新安装重置密码插件。 sudo sh setup.sh 如果脚本执行成功打印“cloudResetPwdAgent
执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持检查硬件是否存在问题。 如果风扇显示ERR!,可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile Uncorr. ECC下未发现ecc
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
EIP资源绑定的服务器如果对外有攻击等安全违规行为,即被冻结状态,在控制台上显示为冻结(违规冻结)。被冻结的资源不可用,也不能修改、删除。若要解除冻结状态,请提交工单。 您可以参考更换弹性公网IP为实例更换EIP。 EIP绑定的实例涉嫌违规被冻结 EIP资源绑定的服务器涉嫌违规行为,
可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile Uncorr. ECC下ecc
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域? 可以,但是不建议这种部署方式。 建议将一个应用软件内的不同部件部署到同一个区域,这样不同部件之间的通信可以采用内网网络通信,既可以节省因采用公网网络通信带来的带宽费用,又可以保证不同部件之间的网络通信质量。 父主题:
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。