检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何查询显卡详细信息 查询指定显卡的详细信息 登录弹性云服务器。 执行以下命令,查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息 登录弹性云服务器。 执行以下命令,所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下:
用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。
非硬件故障自恢复处理方法 如何处理Nouveau驱动未禁用导致的问题 如何处理ECC ERROR:存在待隔离页问题 如何处理升级内核后,驱动不可用问题 如何处理GPU掉卡问题 如何处理显卡ERR!问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 如何处理驱动兼容性问题 如何处理可恢复的Xid故障问题
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。
ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 如何处理驱动安装报错“Unable
重置Linux云服务器密码(未安装重置密码插件) 操作场景 如果Linux操作系统弹性云服务器未安装密码重置插件或者通过控制台重置密码后不生效,可以参见本节内容重新设置密码。 本节操作重置的是root用户的密码,您可以重置完root密码后登录云服务器后再更换密钥或重置非root用户的密码。
无公网IP的弹性云服务器访问Internet 操作场景 为保证安全和节省公网IP资源,通常只为特定的弹性云服务器配置公网IP,可直接访问Internet,其他弹性云服务器只配置私网IP,无法直接访问Internet。 因此,当只配置了私网IP的弹性云服务器需要访问Internet
执行以下命令,查看显卡在位情况,确认是否和服务器规格显卡数一致,保存回显结果。 lspci | grep NV 如下图所示,可以看到有一张GPU显卡,且显卡是rev a1,状态正常;如果为rev ff或其他状态,则显卡可能故障。 父主题: 故障信息收集
区域和可用区 什么是区域、可用区? 区域和可用区用来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Re
什么是弹性云服务器? 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,您就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 弹性云服务器的开通是自助完成的,您只需要指
一键重置弹性云服务器密码 功能介绍 重置弹性云服务器管理账号(root用户或Administrator用户)的密码。 接口约束 默认无符合安全要求的密码复杂度检查,非安全密码输入后,无错误提示。 使用此API,需预先安装重置密码插件。一键式重置密码插件的下载与安装,请参见安装一键式重置密码插件(可选)。
云服务器 - GPU 1分钟 gpu_usage_gpu (Agent) GPU使用率 该指标用于统计测量对象当前的GPU使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
Windows云服务器卡顿怎么办? 当您发现云服务器的运行速度变慢或云服务器突然出现网络断开现象,则可能是由以下原因导致的: 云服务器使用共享资源型实例。 由于共享型资源实例是多实例共享CPU,当资源不足时,实例间可能出现CPU资源争抢,导致云服务器卡顿。 云服务器的带宽和CPU使用率过高。
弹性云服务器可以迁移到其他区域/可用区/账号吗? 云服务器创建后区域和可用区固定,不能直接将云服务器转移到另一个区域或可用区,也不能直接将云服务器转移到另一个账号。 您可以通过镜像迁移方式实现云服务器的跨账号/跨区域/跨可用区迁移。 服务器迁移的常见场景与常用的迁移方式请参考常见的服务器迁移场景。
查询云服务器列表(废弃) 功能介绍 查询云服务器信息列表。 当前API已废弃,请使用查询云服务器详情列表。 调试 您可以在API Explorer中调试该接口。 URI GET /v2.1/{project_id}/servers?changes-since={changes-s
购买的实例数量。 具体请参考弹性云服务器产品价格详情。 镜像 银河麒麟(KylinOS)、统信(UnionTechOS)收费,其余公共镜像免费。如果通过云市场购买,请以云市场价格为准。 说明: 通过私有镜像创建云服务器时,如果私有镜像是由市场镜像创建的云服务器创建的,则会根据云市场价格收取镜像费用。
is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。 问题原因 健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,导致本该隔离的GPU内存页面继续使用。 处理方法 如果用户业务暂未受损,则无需处理。
信息。 (可选)设置“自动安装GPU驱动”。 可选配置。当您选择“GPU加速型”规格,且选择的镜像后缀带“NO Driver”时,会显示该参数。 勾选“自动安装GPU驱动”并选择对应版本后,可以为您的云服务器自动安装GPU驱动。 系统会对规格与GPU驱动版本进行校验,您可以直接从