正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Tesla驱动及CUDA工具包获取方式 操作场景 使用GPU加速型云服务器时,需确保已安装Tesla驱动和CUDA工具包,否则无法实现计算加速功能。本节内容提供Tesla驱动及CUDA工具包下载地址,请根据实例的类型,选择具体的驱动版本。 Tesla驱动及CUDA工具包安装操作指
安装NVIDIA驱动 Linux操作系统云服务器安装Tesla驱动 Windows操作系统云服务器安装Tesla驱动 安装CUDA驱动 Linux操作系统安装CUDA工具包 Windows操作系统安装CUDA工具包 Linux操作系统云服务器安装Tesla驱动 以下操作以Ubuntu
auto_install.sh 根据界面提示,选择需要安装的驱动版本。 图1 选择驱动安装版本 卸载已安装驱动。 如果云服务器已安装过驱动,请根据提示先执行驱动卸载操作。 如果云服务器本身未安装驱动,脚本会自动跳过该步骤,开始进行驱动安装。 卸载CUDA Toolkit。 图2 卸载CUDA
图3 安装驱动 图4 同意NVIDIA软件许可协议 图5 选择安装选项 驱动安装完成后,可能需要重启云服务器。 如果需要重启,单击“稍后重启”,待脚本执行完成后,手动重启云服务器。 图6 稍后重启 如果不需要重启,单击“关闭”。 图7 关闭 返回桌面,在空白处右键单击,选择“NV
25端口连接外部地址。 如果没有在云上部署邮件服务的需求,该限制不会影响您的服务。 目前仅华北-北京一的TCP 25端口出方向默认被封禁,其他区域TCP 25端口不会封禁。 解决方案 如果您需要使用华为云上的云服务器对外部发送邮件,建议您使用云速邮箱。 使用第三方邮件服务商支持的465端口。 申请解封TCP
备选DNS服务器地址:是在首选DNS服务器出现故障、不可用或无法解析请求的域名时使用的DNS服务器,因此您可以设置为华为云内网DNS服务器的地址(需要根据ECS所在区域选择内网DNS服务器地址,具体的地址信息请参见华为云提供的内网DNS服务器地址。),也可以设置成公网DNS服务器地址,具体以实际业务为准。
PAGE_RETIREMENT 如果Pending Page Blacklist 为No,说明当前已无待隔离页。 方法二: 执行以下命令,重启服务器。 reboot 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending
事件概述 在日常运维中,华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。 当宿主机上的故障风险无法规避时,为避免因ECS实例的资源可用性或性能受损对您的业务造成的更大影响,系统会对受影响的实例生成事件并进行上报,例如实例重部署、本地盘换盘等,事件详细内容请参见事件类型。系统上报事件不会频繁发生。
abc /add 弹性云服务器创建成功后,您可以使用新创建的用户名和密码登录弹性云服务器。 案例5 该样例介绍如何通过实例自定义数据注入,为Linux弹性云服务器更新系统软件包,并且开启httpd相关服务。注入成功后,您的弹性云服务器就可以使用httpd服务了。 实例自定义数据注入示例:
导配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。 父主题: 非硬件故障自恢复处理方法
txt格式保存在本地,保存公钥文件。 将公钥文件导入管理控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 在“密钥对”页面,单击“导入密钥对”。 将“.txt”格式文本文档中的公钥内容粘贴至“Public
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
使用Mac远程连接Windows云服务器报错:证书或相关链无效 问题描述 使用Mac版Microsoft Remote Desktop工具,远程连接Windows云服务器。 图1 Mac版Microsoft Remote Desktop工具 由于Mac系统的特殊性,在使用Mac系
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。 如果用户使
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
针对Intel处理器芯片存在的Meltdown和Spectre安全漏洞,应该如何规避? 问题描述 北京时间1月3日,Intel处理器芯片被曝出存在严重的Meltdown和Spectre安全漏洞,漏洞详情如下: 漏洞名称:Intel处理器存在严重芯片级漏洞 漏洞编号:CVE-201