检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
25端口连接外部地址。 如果没有在云上部署邮件服务的需求,该限制不会影响您的服务。 目前仅华北-北京一的TCP 25端口出方向默认被封禁,其他区域TCP 25端口不会封禁。 解决方案 如果您需要使用华为云上的云服务器对外部发送邮件,建议您使用云速邮箱。 建议您使用第三方邮件服务商支持的465端口。 父主题:
请确保下载和安装与公共镜像创建云服务器时相同的GRID驱动版本,以确保驱动与主机配套,云服务器可正常运行。 GRID驱动版本,请参见表1。 本节操作介绍如何安装GRID驱动,购买或者申请GRID License,以及如何配置License服务器。 安装GRID驱动操作步骤: 购买GRID
pip安装软件时出现错误:command ´gcc´ failed with exit status 1 问题描述 安装Python库软件时,需配置pip源。以中国科技大学镜像源为例: [root@test home]# cat /root/.pip/pip.conf [global]
导配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。 父主题: 非硬件故障自恢复处理方法
Tesla驱动及CUDA工具包获取方式 操作场景 使用GPU加速型云服务器时,需确保已安装Tesla驱动和CUDA工具包,否则无法实现计算加速功能。本节内容提供Tesla驱动及CUDA工具包下载地址,请根据实例的类型,选择具体的驱动版本。 Tesla驱动及CUDA工具包安装操作指
安装NVIDIA驱动 Linux操作系统云服务器安装Tesla驱动 Windows操作系统云服务器安装Tesla驱动 安装CUDA驱动 Linux操作系统安装CUDA工具包 Windows操作系统安装CUDA工具包 Linux操作系统云服务器安装Tesla驱动 以下操作以Ubuntu
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
txt格式保存在本地,保存公钥文件。 将公钥文件导入管理控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 在“密钥对”页面,单击“导入密钥对”。 将“.txt”格式文本文档中的公钥内容粘贴至“Public
图3 安装驱动 图4 同意NVIDIA软件许可协议 图5 选择安装选项 驱动安装完成后,可能需要重启云服务器。 如果需要重启,单击“稍后重启”,待脚本执行完成后,手动重启云服务器。 图6 稍后重启 如果不需要重启,单击“关闭”。 图7 关闭 返回桌面,在空白处右键单击,选择“NV
备选DNS服务器地址:是在首选DNS服务器出现故障、不可用或无法解析请求的域名时使用的DNS服务器,因此您可以设置为华为云内网DNS服务器的地址(需要根据ECS所在区域选择内网DNS服务器地址,具体的地址信息请参见华为云提供的内网DNS服务器地址。),也可以设置成公网DNS服务器地址,具体以实际业务为准。
PAGE_RETIREMENT 如果Pending Page Blacklist 为No,说明当前已无待隔离页。 方法二: 执行以下命令,重启服务器。 reboot 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending
abc /add 弹性云服务器创建成功后,您可以使用新创建的用户名和密码登录弹性云服务器。 案例5 该样例介绍如何通过实例自定义数据注入,为Linux弹性云服务器更新系统软件包,并且开启httpd相关服务。注入成功后,您的弹性云服务器就可以使用httpd服务了。 实例自定义数据注入示例:
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
事件概述 在日常运维中,华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。 当宿主机上的故障风险无法规避时,为避免因ECS实例的资源可用性或性能受损对您的业务造成的更大影响,系统会对受影响的实例生成事件并进行上报,例如实例重部署、本地盘换盘等,事件详细内容请参见事件类型。系统上报事件不会频繁发生。
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
Windows远程登录报错类 远程连接Windows云服务器报错:出现身份验证错误,要求的函数不受支持 远程连接Windows云服务器报错:此计算机无法连接到远程计算机 远程连接Windows云服务器报错:没有远程登录的权限 远程连接Windows云服务器报错:没有远程桌面授权服务器可以提供许可证
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
使用Mac远程连接Windows云服务器报错:证书或相关链无效 问题描述 使用Mac版Microsoft Remote Desktop工具,远程连接Windows云服务器。 图1 Mac版Microsoft Remote Desktop工具 由于Mac系统的特殊性,在使用Mac系