检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬盘。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额? 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。
如何解决多网卡的Linux弹性云服务器变更规格后网卡漂移? 问题描述 绑定了多个网卡的Linux系统弹性云服务器,如果在变更规格后执行ifconfig(或ip addr)命令时出现网卡设备名称与网卡MAC地址对应不一致的情况,则表明云服务器变更规格后发生了网卡漂移。 如下图所示,变更规格前后,分别在云服务器中执行ip
如何将扩容系统盘的空白分区在线扩容到非末尾的root分区? 操作场景 弹性云服务器创建成功后,如果发现系统盘分区的容量大小和实际创建的系统盘大小不一致,可以将空白分区扩容到根分区,扩容系统盘的空白空间。 本节介绍了怎样将空白分区在线扩容到非末尾的root分区。 操作步骤 以CentOS
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
Debian系列弹性云服务器如何安装图形化界面? 操作场景 为了提供纯净的弹性云服务器系统给客户,Debian系列弹性云服务器默认没有安装图形化界面,如果您需要图形化界面,请参见本节内容进行安装。 约束与限制 本文档适用于Debian8/9/10操作系统云服务器。 弹性云服务器安
-r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find /lib/modules -name nvidia.ko 如果当前内核版本与安装驱动时的内核版本不
当显示如下内容,表示支持GPU监控的CES Agent安装成功。 图1 支持GPU监控的CES Agent安装成功 操作步骤(多台ECS批量安装) 本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍多台ECS批量安装支持GPU监控的CES Agent的操作指导。
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messa
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
如何解决Ubuntu 16.04云服务器可以通过SSH成功登录,但VNC界面无法到达登录界面的问题 问题描述 用户Ubuntu16.04系统通过SSH连接成功,但是VNC方式登录时到不了login界面。 约束与限制 本操作涉及修改grub配置文件,误操作可能会导致系统无法启动。操
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何解决SR-IOV场景下win7弹性云服务器安装82599网卡驱动报错? 问题描述 从Intel官网下载最新的20.4.1版本驱动包(下载地址:https://downloadcenter.intel.com/search?keyword=Intel++Ethernet+Con
服务的访问控制 IAM身份认证 弹性云服务器支持通过IAM进行精细的权限管理,实现用户身份认证、权限分配、访问控制等功能,可以帮助您安全地控制资源的访问。 您可以在账号中创建IAM用户,并授权控制他们对资源的访问范围。IAM权限是作用于云资源的,IAM权限定义了允许和拒绝的访问操作,以此实现云资源权限访问控制。
见《镜像服务API参考》的“制作整机镜像”章节。 接口约束 error状态的弹性云服务器无法用于创建镜像。 对于弹性云服务器创建的镜像,后续使用该镜像创建弹性云服务器时,只能创建在与原弹性云服务器相同的AZ内。 使用弹性云服务器创建的镜像被删除后,关联的快照不会自动删除(原生实现),需要用户自行删除。
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。