检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用创建时的用户名和密码无法SSH方式登录GPU加速云服务器 处理方法 先使用VNC方式远程登录弹性云服务器,并修改配置文件,然后再使用SSH方式登录。 进入弹性云服务器运行页面,单击“远程登录”。 自动跳转至登录页面,登录root用户,输入密码。 密码为创建弹性云服务器时设置的密码。
方法1:执行nvidia-uninstall命令,卸载驱动。 如果提示命令不存在可以执行 查询云服务器安装的驱动版本:whereis n...卸载驱动。 方法2:查询云服务器安装的驱动版本:whereis nvidia 图2 查询安装的驱动版本 根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为
了解 了解华为云弹性云服务器的应用场景和实例详情,有助于您更准确地匹配实际业务,更快速地选择所需实例,让您的业务高效上云。 产品介绍 什么是弹性云服务器 弹性云服务器使用场景 弹性云服务器使用须知 实例规格清单 ECS最新动态 ECS功能总览 03 入门 创建ECS实例后,您可以通
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev
添加云服务器组成员 功能介绍 将云服务器加入云服务器组。添加成功后,该云服务器与云服务器组中的其他成员尽量分散地创建在不同主机上。 接口约束 仅支持添加虚拟化类型为KVM的弹性云服务器。 当前只支持反亲和性策略,即同一云服务器组中的弹性云服务器分散地创建在不同的主机上,提高业务的可靠性。
如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVIDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断
GPU加速云服务器出现NVIDIA内核崩溃,如何解决? 问题描述 GPU加速型云服务器在运行过程中发生crash,重启云服务器后检查日志,发现没有打印NVIDIA驱动堆栈日志。 图1 堆栈日志信息 可能原因 云服务器在运行过程中遇到NVIDIA官方驱动bug,导致云服务器内核崩溃。
单个资源退订与批量退订可使用不同的操作方式: 退订单个资源:单击待退订资源所在行的“退订资源”。 批量退订:在退订列表中勾选需要退订的资源,单击列表左上角的“退订资源”。 查看退订信息,勾选“我已确认本次退订金额和相关费用”后,单击“退订”。 父主题: ECS删除与退订
如何查询XID报错信息 XID消息是NVIDIA驱动程序向操作系统的内核日志或事件日志打印的错误报告,用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 父主题: GPU实例故障自诊断
如何收集NVIDIA日志 收集NVIDIA日志方法如下: 登录弹性云服务器。 在任意目录下执行以下命令。(如果是CCE场景,进入到/opt/cloud/cce/nvidia/bin目录后执行) sh nvidia-bug-report.sh 或 ./nvidia-bug-report
cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令,将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。 使用命令获取信息请参考表1。
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 如何处理驱动安装报错“Unable
在macOS系统上登录Windows云服务器: 登录用户名为“Administrator”,且弹性云服务器必须绑定弹性公网IP。 具体操作,请参见macOS系统登录Windows弹性云服务器。 登录Linux弹性云服务器 弹性云服务器设置的登录鉴权方式不同,登录弹性云服务器的方法也存在差异,如图2所示。
如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules
id String 弹性云服务器组UUID。 name String 弹性云服务器组名称。 policies Array of strings 与服务器组关联的策略名称列表。当前有效的策略名称为: anti-affinity :此组中的服务器必须安排到不同的主机; members
华为云有没有提供NTP服务器,怎样配置? 有,该NTP服务器仅限于在华为云控制台上购买的弹性云服务器配置使用。 如需在购买的弹性云服务器上配置NTP服务器,您可以选择使用华为云控制台自己提供的NTP服务器,也可以选择其他NTP服务器。配置NTP服务器的操作相同,本节以华为云控制台提供的NTP服
弹性云服务器关机后还会计费吗? 弹性云服务器支持多种计费模式,不同计费模式的弹性云服务器的关机策略不同。 包年/包月:按订单周期计费,属于预付费资源,关机对计费无影响。 竞价计费(竞享模式):按实际使用时长和选择的保障周期对应价格计费,虽然属于后付费资源,但关机后仍然正常计费。
如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA
如何查询显卡在位信息 查询显卡在位信息方法如下: 登录弹性云服务器。 执行以下命令,查看显卡在位情况,确认是否和服务器规格显卡数一致,保存回显结果。 lspci | grep NV 如下图所示,可以看到有一张GPU显卡,且显卡是rev a1,状态正常;如果为rev ff或其他状态,则显卡可能故障。