检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
发,主要用于RTL开发场景,满足用户高带宽低时延的要求。 通用型架构 基于SDAccel的通用型交互框架,支持块计算模块,支持Xilinx SGDMA(Scatter-Gather DMA)数据传输框架,主要用于高级语言开发或已有算法移植,满足用户快速上线的需求。 使用场景 使用
包年/包月是一种先付费再使用的计费模式,适用于对资源需求稳定且希望降低成本的用户。通过选择包年/包月的计费模式,您可以预先购买云服务资源并获得一定程度的价格优惠。本文将介绍包年/包月ECS资源的计费规则。 适用场景 包年/包月计费模式需要用户预先支付一定时长的费用,适用于长期、稳定的业务需求。以下是
解决方案 远程登录ECS实例。 执行以下命令,查看ECS实例内核参数kernel.unknown_nmi_panic的值。 sysctl -n kernel.unknown_nmi_panic 如果内核参数的取值为1,说明是由于内核参数配置错误引起的ECS实例异常重启。 图1
查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。 若检查项GPU节点上的XID异常不为空,您可按照GPU实例故障分类列表自助诊断并解决问题,或联系技术支持人员获取帮助。
您可以选择以下方式备份磁盘数据: 方式一:创建云硬盘快照。 方式二:创建云硬盘备份。 远程登录ECS。 详细操作,请参见Linux ECS登录方式概述。 执行以下命令,查看磁盘分区情况。 fdisk -lu 图6 磁盘分区 如图所示,该实例有2块磁盘,系统盘/dev/vda和数据盘/dev/vdb,以数据盘/dev/vdb为例进行介绍。
监控弹性云服务器 监控是保持弹性云服务器可靠性、可用性和性能的重要部分,通过监控,用户可以观察弹性云服务器资源。为使用户更好地掌握自己的弹性云服务器运行状态,云服务平台提供了云监控。您可以使用该服务监控您的弹性云服务器,执行自动实时监控、告警和通知操作,帮助您更好地了解弹性云服务器的各项性能指标。
ECS的“按需计费”是秒级计费,ECS产品价格详情中标出了每小时价格,您可以将每小时价格除以3600,即得到每秒价格。 示例,某一按需实例价格为0.68元/小时,购买一台按需实例根据实际使用时长、按秒计费。 使用30分钟,根据实际使用时长按秒计费:(0.68/3600) × 30 × 60=0.34元
如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules
如何查询显卡详细信息 查询指定显卡的详细信息 登录弹性云服务器。 执行以下命令,查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息 登录弹性云服务器。 执行以下命令,所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下:
objects 分页查询时,查询下一页数据链接。 详情请参见表4。 request_id String 请求ID。 表4 servers_links字段数据结构说明 参数 参数类型 描述 href String 对应资源链接。 rel String 对应快捷链接。 表5 servers字段数据结构说明
如何收集驱动安装信息 收集驱动安装信息的方法如下: 登录弹性云服务器。 执行以下命令,检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题,收集/var/log/nvidia-installer.log 驱动安装日志,并转储日志信息。
云硬盘备份:如果对指定的单个或多个云硬盘(系统盘或数据盘)进行备份,推荐使用云硬盘备份功能,在保证数据安全的同时降低备份成本。 云服务器备份操作步骤 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 单击“”,选择“计算 > 弹性云服务器”。 在弹性云服务器的“操作”列下,单击“更多
如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA
当账号欠费时,回收站中的ECS会进入宽限期、保留期。在未达到自定义停留时长时,根据宽限期和保留期策略,回收站中的ECS也可能会被系统提前删除。 操作步骤 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 单击“”,选择“计算 > 弹性云服务器”。 选择ECS列表上方的“回收站”页签。
理,需要对每个项目进行开启回收站操作。 前提条件 开启ECS回收站时,需优先开启云硬盘回收站。详细操作请参见开启云硬盘回收站。 操作步骤 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 单击“”,选择“计算 > 弹性云服务器”。 选择ECS列表上方的“回收站”页签。 图1
启用networking服务,一定要检查interfaces文件中是否设置网络配置为DHCP模式。 vi /etc/network/interfaces 若只有一个网卡eth0则可以检查或增加: auto eth0 iface eth0 inet dhcp 图1 设置网络配置为DHCP模式 父主题: 网络配置
在未达到回收站的自定义保存时长时,您可以参考本章节恢复回收站中的ECS。 约束与限制 当账号冻结或受限时,回收站功能失效,回收站的ECS无法恢复。 操作步骤 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 单击“”,选择“计算 > 弹性云服务器”。 选择ECS列表上方的“回收站”页签。
String 实例名称。 id String 实例ID。 availability_zone_id String 可用区ID。 flavor_id String 实例规格。 status String 实例状态。 sell_mode String 销售模型。 spot:竞价实例 onDemand:按需实例
如何查询显卡在位信息 查询显卡在位信息方法如下: 登录弹性云服务器。 执行以下命令,查看显卡在位情况,确认是否和服务器规格显卡数一致,保存回显结果。 lspci | grep NV 如下图所示,可以看到有一张GPU显卡,且显卡是rev a1,状态正常;如果为rev ff或其他状态,则显卡可能故障。