检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行以下命令,查看安装结果。 lspci -d 10de: 图1 安装结果 GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。如果驱动未安装,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。 Linux驱动文件 nvmlUbuntuNvidiaLibraryPath
安装GPU指标集成插件 通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标。 本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件:
操作系统监控GPU页面显示无记录该如何处理? 在查看主机监控的监控指标时,如果出现操作系统监控GPU页面显示无记录的问题,请先确认您的机器是否支持GPU。若您的机器支持GPU且驱动运行正常,请参考以下操作步骤升级插件为增强版: 卸载当前基础版Agent: Linux平台:登录机器执行命令
CES Agent迭代版本已知版本特性如下: 2.7.5.1版本 分类 说明 发布时间 2024-12-20 新特性 基于2.7.5版本: GPU指标采集加固。 修复问题 无 2.7.5版本 分类 说明 发布时间 2024-12-20 新特性 优化网卡指标采集逻辑,完善网卡名称维度值规则规则校验
维度名称,枚举类型,类型有: mount_point:挂载点, disk:磁盘, proc:进程, gpu:显卡, raid: RAID控制器, 枚举值: mount_point disk proc gpu raid dim_value 否 String 维度值,32位字符串,如:2e8401
Agent版本特性 修改DNS与添加安全组 Agent安装说明 手动配置Agent(可选) 升级Agent 管理Agent BMS硬件监控插件说明 安装GPU指标集成插件 安装云专线指标采集插件 父主题: 主机监控
Key:disk Value:磁盘 Key:mount_point Value:挂载点 Key:proc Value:进程 Key:gpu Value:GPU Key:npu Value:NPU Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent)
Key:instance_id Value:云服务器ID Key:disk Value:磁盘 Key:mount_point Value:挂载点 Key:gpu Value:GPU Key:proc Value:进程 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS
2.4.5 gpu_temperature 该GPU的温度。 °C 2.4.5 gpu_usage_gpu 该GPU的算力使用率。 % 2.4.1 gpu_usage_mem 该GPU的显存使用率。 % 2.4.1 gpu_used_mem 该GPU的显存使用量。 MB 2.4.5
Agent插件资源占用和熔断说明 主机监控Agent对主机的性能会有影响吗? Agent不同插件状态说明及处理方式 Agent支持的指标列表 支持GPU监控的环境约束 BMS硬件监控指标采集说明 什么是插件修复配置? 怎样让新购ECS实例中带有操作系统监控功能? Agent各种状态说明及异常状态处理方法
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
广域网质量监控归属于华为云监控(CES),使用广域网质量监控,可免费使用CES的视图、告警模块,与云上资源监控深度融合、打通。通过使用不同的网络层协议模拟用户的在线行为来分析互联网服务和网络的表现,并通过分析延迟、丢包率等关键指标优化用户体验。 当前支持的监控类型:HTTP、HTTPS、PING、TCP、UDP、DNS。
SDK概述 本文介绍了CES服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 在开始使用之前,请确保您安装的是最新版本的SDK。使用过时的版本可
恢复进行监控,订阅事件告警同步进行业务处理。 关系型数据库事件 关系型数据库是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。在使用关系型数据库中,需持续关注数据库状态,可通过事件监控,对异常事件告警进行处理,保证业务稳定运行。 弹性公网IP事件
关系型数据库事件 关系型数据库是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。在使用关系型数据库中,需持续关注数据库状态,可通过事件监控,对异常事件告警进行处理,保证业务稳定运行。 表1 RDS重点事件 事件名称 事件说明 处理步骤 创建实例业务失败
第二十次正式发布。 本次变更如下: 分布式缓存服务新增监控指标。 新对接预测服务。 新对接Elasticsearch服务。 主动监控新增GPU指标。 2018-02-28 第十九次正式发布。 本次变更如下: 人工智能服务新增监控指标。 新对接云数据迁移服务。 主动监控新增负载指标。