检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何查询显卡详细信息 查询指定显卡的详细信息 登录弹性云服务器。 执行以下命令,查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息 登录弹性云服务器。 执行以下命令,所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下:
Windows云服务器登录方式一览 云服务器操作系统 本地主机操作系统 连接方法 条件 Windows Windows (推荐使用)使用控制台提供的RDP文件登录云服务器。 使用RDP文件登录Windows云服务器。 云服务器绑定弹性公网IP。 (通过内网登录云服务器时可以不绑定弹性公网I
创建云服务器 功能介绍 创建一台或多台云服务器。 V1.1版本创建云服务器的接口兼容了V1版本创建云服务器(按需)的功能,同时合入新功能,支持创建包年/包月的弹性云服务器。 本接口为异步接口,当前创建云服务器请求下发成功后会返回job_id,此时创建云服务器并没有立即完成,需要通
如何查询显卡在位信息 查询显卡在位信息方法如下: 登录弹性云服务器。 执行以下命令,查看显卡在位情况,确认是否和服务器规格显卡数一致,保存回显结果。 lspci | grep NV 如下图所示,可以看到有一张GPU显卡,且显卡是rev a1,状态正常;如果为rev ff或其他状态,则显卡可能故障。
如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA
弹性云服务器关机后还会计费吗? 弹性云服务器支持多种计费模式,不同计费模式的弹性云服务器的关机策略不同。 包年/包月:按订单周期计费,属于预付费资源,关机对计费无影响。 竞价计费(竞享模式):按实际使用时长和选择的保障周期对应价格计费,虽然属于后付费资源,但关机后仍然正常计费。
cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令,将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。 使用命令获取信息请参考表1。
高负载应用场景推荐使用弹性云服务器ECS,性能更稳定。 弹性云服务器:弹性云服务器提供多种计费模式、规格类型、镜像类型、磁盘类型,针对不同的业务场景,自定义配置弹性云服务器。 云耀云服务器与弹性云服务器的购买和配置区别 表1 云耀云服务器与弹性云服务器的购买和配置区别 产品优势 特点 云耀云服务器 HECS 弹性云服务器
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
id String 弹性云服务器组UUID。 name String 弹性云服务器组名称。 policies Array of strings 与服务器组关联的策略名称列表。当前有效的策略名称为: anti-affinity :此组中的服务器必须安排到不同的主机; members
将ECS迁移至专属主机 操作场景 云平台支持弹性云服务器在专属主机与公共资源池之间迁移。 在控制台的“弹性云服务器”页面,您可以将公共资源池的弹性云服务器迁移至专属主机,成为专属主机上的弹性云服务器。 本章节介绍公共资源池的弹性云服务器迁移至专属主机的操作指导。 迁移云服务器需保
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 如何处理驱动安装报错“Unable
如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules
可用性,但是,服务器的硬件、电源等部件仍有较小概率的损坏。云平台默认提供了自动恢复功能,当弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,保障您受到的影响最小,该过程会导致云服务器重启。了解更多 您可以在云监控服务控制台为弹性云服务器开启“一键告警”
云服务器如何升配和降配,是否需要关机? 当您购买的弹性云服务器的规格无法满足业务需要时,您可以随时变更规格,升级vCPU和内存。 在弹性云服务器列表页,单击“操作”列下的“更多 > 变更规格”,即可变更弹性云服务器的规格。 变更规格过程中,弹性云服务器需要关机,建议您选择业务空闲时间进行操作。
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。
如何处理infoROM错误 问题描述 Linux操作系统的云服务器在执行nvidia-smi命令报错“WARNING:infoROM is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。 问题原因 健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。
管理云耀云服务器 查看云耀云服务器详细信息 修改云耀云服务器名称 重装操作系统 切换操作系统 变更规格 更改时区