检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安装GPU指标集成插件 操作场景 通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标。 本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件:
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。 已安装lspci工
ubuntu系统/snap/挂载点误告警问题。 2.6.4.1版本 基于2.6.4版本: 增加GPU指标。 增加NPU指标 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。 2.6.4版本 增加UDP连接总数指标。 2.5.6.1版本 基于2.5.6版本: 增加GPU指标。 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。
Value:全球加速监听器和目的区域 Key:ga_pop_listener Value:全球加速接入点和监听器 Key:ga_pop_region Value:全球加速接入点和目的区域 Key:ga_pop_listener_region Value:全球加速接入点、监听器和目的区域 Ke
维度名称,枚举类型,类型有: mount_point:挂载点, disk:磁盘, proc:进程, gpu:显卡, raid: RAID控制器, 枚举值: mount_point disk proc gpu raid dim_value 否 String 维度值,32位字符串,如:2e8401
Value:全球加速监听器和目的区域 Key:ga_pop_listener Value:全球加速接入点和监听器 Key:ga_pop_region Value:全球加速接入点和目的区域 Key:ga_pop_listener_region Value:全球加速接入点、监听器和目的区域 Ke
2.4.5 gpu_temperature 该GPU的温度。 °C 2.4.5 gpu_usage_gpu 该GPU的算力使用率。 % 2.4.1 gpu_usage_mem 该GPU的显存使用率。 % 2.4.1 gpu_used_mem 该GPU的显存使用量。 MB 2.4.5
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
其他插件安装说明 BMS硬件监控插件说明 安装GPU指标集成插件 安装云专线指标采集插件 父主题: 云监控插件(Agent)
第六十四次正式发布: 新增BMS硬件监控插件说明章节。 下线安装GPU ECC监控插件(Linux)章节。 2023-08-21 第六十三次正式发布: 更新Agent版本特性章节。 优化Agent安装说明章节。 下线一键配置插件说明章节。 下线安装GPU指标与RAID指标采集插件采集插件(Linux)章节。
如何配置DNS和安全组? 如何配置委托? CES Agent如何通过授权获取临时AK/SK? Agent支持的系统有哪些? Agent插件资源占用和熔断说明 主机监控Agent对主机的性能会有影响吗? Agent不同插件状态说明及处理方式 Agent支持的指标列表 支持GPU监控的环境约束
ids”和“resources”。 新增查询某一事件监控详情表detail新增字段“dimensions”。 新增修改告警规则策略(全量修改)表UpdatePolicy新增字段“type”。 新增查询告警规则策略列表表ListPolicy新增字段“extra_info”和“type”。
告警通知系统模板更新记录 云监控服务930版本将短信告警通知系统模板中的告警信息进行了修改,具体变更信息如表1 短信-指标系统通知模板、表2 短信-系统事件系统通知模板和表3 短信-自定义事件系统通知模板所示: 表1 短信-指标系统通知模板 信息 变更操作 告警恢复状态 新增 跳转连接
× 弹性IP √ √ √ √ × 虚拟专用网络 VPN VPN连接 √ √ × √ × 企业版站点入云VPN网关 √ √ √ √ √ 企业版站点入云VPN连接 √ √ √ √ √ 企业版终端入云VPN网关 √ √ √ √ √ 新VPN连接实例 √ × × × × 独享型VPN连接
请确保您已创建通知对象,并开启“企业微信”通知渠道白名单,开启白名单请参考申请开通SMN新协议公测。 创建企业微信机器人 本文以手机版企业微信为例,为您介绍创建企业微信机器人的操作方法。 在手机版企业微信中打开待接收告警通知的企业微信群。 单击右上角的图标。 单击群机器人选项。 单击添加机器人。 单击新建。
请确保您已创建通知对象,并开启“企业微信”通知渠道白名单,开启白名单请参考申请开通SMN新协议公测。 创建飞书机器人 本文以PC版飞书为例,为您介绍创建飞书机器人的操作方法。 在PC版飞书中打开发送告警通知的飞书群。 单击设置图标,添加机器人。 单击添加自定义机器人选项。 输入机器人名字,例如:云监控告警通知,完成添加。
Prometheus是用于展示大型测量数据的开源可视化工具,在工业监控、气象监控、家居自动化和过程管理等领域也有着较广泛的用户基础。将华为云Cloud Eye服务接入Prometheus后,您可以利用Prometheus更好地监控和分析来自Cloud Eye服务的数据。将服务接入Prometheus前,需要先安装配置CES
由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可以查看账号ID和IAM用户ID。通常在调用API的鉴权过程中,您需要用到账号、用户和密码等信息。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储
、主动式、细颗粒度的监控服务。 约束与限制 目前只支持Linux操作系统和Windows操作系统。支持的系统请参见Agent支持的系统有哪些?。 前提条件 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 使用具有admini