检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建云服务器 功能介绍 创建一台或多台云服务器。 V1.1版本创建云服务器的接口兼容了V1版本创建云服务器(按需)的功能,同时合入新功能,支持创建包年/包月的弹性云服务器。 本接口为异步接口,当前创建云服务器请求下发成功后会返回job_id,此时创建云服务器并没有立即完成,需要通
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 如何处理驱动安装报错“Unable
如何查询显卡详细信息 查询指定显卡的详细信息 登录弹性云服务器。 执行以下命令,查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息 登录弹性云服务器。 执行以下命令,所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下:
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。
本地盘实例怎么添加到云服务器组? 云服务器组是对云服务器的一种逻辑划分,即同一云服务器组中的弹性云服务器遵从支持反亲和性,分散地创建在不同的主机上。 将实例添加到云服务器组的方式有两种: 购买时添加:购买时,通过在“高级配置”中配置“云服务器组”参数,将实例添加至云服务器组。 购买后添
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 父主题: GPU实例故障自诊断
云服务器如何升配和降配,是否需要关机? 当您购买的弹性云服务器的规格无法满足业务需要时,您可以随时变更规格,升级vCPU和内存。 在弹性云服务器列表页,单击“操作”列下的“更多 > 变更规格”,即可变更弹性云服务器的规格。 变更规格过程中,弹性云服务器需要关机,建议您选择业务空闲时间进行操作。
将ECS迁移至专属主机 操作场景 云平台支持弹性云服务器在专属主机与公共资源池之间迁移。 在控制台的“弹性云服务器”页面,您可以将公共资源池的弹性云服务器迁移至专属主机,成为专属主机上的弹性云服务器。 本章节介绍公共资源池的弹性云服务器迁移至专属主机的操作指导。 迁移云服务器需保
可用性,但是,服务器的硬件、电源等部件仍有较小概率的损坏。云平台默认提供了自动恢复功能,当弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,保障您受到的影响最小,该过程会导致云服务器重启。了解更多 您可以在云监控服务控制台为弹性云服务器开启“一键告警”
id String 弹性云服务器组UUID。 name String 弹性云服务器组名称。 policies Array of strings 与服务器组关联的策略名称列表。当前有效的策略名称为: anti-affinity -此组中的服务器必须安排到不同的主机; members
参数类型 描述 id String 弹性云服务器组UUID。 name String 弹性云服务器组名称。 policies Array of strings 弹性云服务器组类型。包括: anti-affinity:此组中的云服务器必须安排到不同的主机。 members Array
什么是弹性云服务器? 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,您就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 弹性云服务器的开通是自助完成的,您只需要指
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理infoROM错误 问题描述 Linux操作系统的云服务器在执行nvidia-smi命令报错“WARNING:infoROM is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。 问题原因 健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。
Windows云服务器卡顿怎么办? 当您发现云服务器的运行速度变慢或云服务器突然出现网络断开现象,则可能是由以下原因导致的: 云服务器使用共享资源型实例。 由于共享型资源实例是多实例共享CPU,当资源不足时,实例间可能出现CPU资源争抢,导致云服务器卡顿。 云服务器的带宽和CPU使用率过高。
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
怎样配置弹性云服务器的DNS和NTP信息? Linux操作系统 以NTP服务器、DNS服务器的操作系统均为SUSE为例: 给弹性云服务器配置NTP服务器。 登录Linux弹性云服务器。 执行以下命令,切换至root用户。 sudo su - 执行以下命令,编辑ntp.conf文件。
单击管理控制台左上角的,选择区域和项目。 单击“”,选择“计算 > 弹性云服务器”。 在弹性云服务器列表页左上角,单击“导出”,导出列表。 图1 导出弹性云服务器列表 系统会将您账号下,当前区域的所有弹性云服务器信息自动导出,并下载至本地。 您可以在云服务器控制台导航栏的最下端,单击“