检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过nvidia.com/gpu指定申请GPU的数量,支持申请设置为小于1的数量,比如nvidia.com/gpu: 0.5,这样可以多个Pod共享使用GPU。GPU数量小于1时,不支持跨GPU分配,如0.5 GPU只会分配到一张卡上。 使用nvidia.com/gpu参数指定GPU数量时,re
使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 处理方法 先使用VNC方式远程登录弹性云服务器,并修改配置文件,然后再使用SSH方式登录。 进入弹性云服务器运行页面,单击“远程登录”。 自动跳转至登录页面,登录root用户,输入密码。 密码为创建弹性云服务器时设置的密码。
GPU实例故障自诊断 GPU实例故障,如果已安装GPU监控的CES Agent,当GPU服务器出现异常时则会产生事件通知,可以及时发现问题避免造成用户损失。如果没有安装CES Agent,只能依赖用户对故障的监控情况,发现故障后及时联系技术支持处理。 GPU实例故障处理流程 GPU实例故障分类列表
当前已支持使用自动化脚本安装GPU驱动,建议优先使用自动安装方式,脚本获取以及安装指导请参考(推荐)自动安装GPU加速型ECS的GPU驱动(Linux)和(推荐)自动安装GPU加速型ECS的GPU驱动(Windows)。 GPU虚拟化型实例,需要严格按照表1选择合适的驱动版本下载使用。 Tesla驱动下载地址
方法1:执行nvidia-uninstall命令,卸载驱动。 如果提示命令不存在可以执行 查询云服务器安装的驱动版本:whereis n...卸载驱动。 方法2:查询云服务器安装的驱动版本:whereis nvidia 图2 查询安装的驱动版本 根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev
选择要登录的云服务器,单击操作列中的“远程登录”。 在弹出的“登录Linux云服务器”窗口中,单击“CloudShell登录”。 在CloudShell界面配置云服务器信息。 首次登录,默认会打开CloudShell配置向导,输入云服务器的相关参数进行连接。 您可以选择使用弹性公网IP或私有IP登录云服务器。
了解 了解华为云弹性云服务器的应用场景和实例详情,有助于您更准确地匹配实际业务,更快速地选择所需实例,让您的业务高效上云。 产品介绍 什么是弹性云服务器 弹性云服务器使用场景 弹性云服务器使用须知 实例规格清单 ECS最新动态 ECS功能总览 03 入门 创建ECS实例后,您可以通
如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVIDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断
GPU加速云服务器出现NVIDIA内核崩溃,如何解决? 问题描述 GPU加速型云服务器在运行过程中发生crash,重启云服务器后检查日志,发现没有打印NVIDIA驱动堆栈日志。 图1 堆栈日志信息 可能原因 云服务器在运行过程中遇到NVIDIA官方驱动bug,导致云服务器内核崩溃。
添加云服务器组成员 功能介绍 将云服务器加入云服务器组。添加成功后,该云服务器与云服务器组中的其他成员尽量分散地创建在不同主机上。 接口约束 仅支持添加虚拟化类型为KVM的弹性云服务器。 当前只支持反亲和性策略,即同一云服务器组中的弹性云服务器分散地创建在不同的主机上,提高业务的可靠性。
单个资源退订与批量退订可使用不同的操作方式: 退订单个资源:单击待退订资源所在行的“退订资源”。 批量退订:在退订列表中勾选需要退订的资源,单击列表左上角的“退订资源”。 查看退订信息,勾选“我已确认本次退订金额和相关费用”后,单击“退订”。 父主题: ECS删除与退订
如何查询XID报错信息 XID消息是NVIDIA驱动程序向操作系统的内核日志或事件日志打印的错误报告,用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。
cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令,将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。 使用命令获取信息请参考表1。
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 父主题: GPU实例故障自诊断
如何收集NVIDIA日志 收集NVIDIA日志方法如下: 登录弹性云服务器。 在任意目录下执行以下命令。(如果是CCE场景,进入到/opt/cloud/cce/nvidia/bin目录后执行) sh nvidia-bug-report.sh 或 ./nvidia-bug-report
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 如何处理驱动安装报错“Unable
如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules
在macOS系统上登录Windows云服务器: 登录用户名为“Administrator”,且弹性云服务器必须绑定弹性公网IP。 具体操作,请参见macOS系统登录Windows弹性云服务器。 登录Linux弹性云服务器 弹性云服务器设置的登录鉴权方式不同,登录弹性云服务器的方法也存在差异,如图2所示。
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。