检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
每个实践提供详细的方案描述和操作指导,帮助用户轻松使用AOM。 表1 AOM 最佳实践一览表 最佳实践 说明 通过AOM告警分组规则清除ELB告警风暴 本文档介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。
AOM支持在Prometheus实例的“仪表盘”中通过系统预置的仪表盘模板快速监控云服务类型和default类型Prometheus实例的指标数据,及时定位并发现资源数据存在的问题,提升运维效率。 当前仅云服务类型与default类型Prometheus实例支持。 数据多写 AOM支持在Prome
应用监控 应用是根据业务需要,对相同或者相近业务的一组组件进行逻辑划分。通过应用监控您可以及时了解应用的资源使用、状态和告警等信息,以便快速响应,保证系统顺畅运行。 功能介绍 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。 应用层监控
MongoDB Exporter接入AOM实现指标监控 应用场景 使用MongoDB过程中需要对MongoDB运行状态进行监控,以便了解MongoDB服务是否运行正常,排查MongoDB故障问题原因。Prometheus监控服务提供了CCE容器场景下基于Exporter的方式来监
MySQL Exporter接入AOM实现指标监控 应用场景 MySQL Exporter专门为采集MySQL数据库监控指标而设计开发,通过Exporter上报核心的数据库指标,用于异常报警和监控大盘展示。目前,Exporter支持5.6版本或以上版本的MySQL。在MySQL低于5
配置完成后,单击“保存”。 全采样设置 为了减少调用链数据频繁上报给服务造成的性能影响,APM探针侧发送的调用链数据,默认情况下以最大100TPS的速率上报。在服务并发量超过100TPS的情况下,调用链不会全部上报,如有需要可以通过修改配置文件的方式修改上报阈值,但请做好性能开销的评估。 全采样功能在设置
Integer 无数据周期的个数。 no_data_alert_state String 数据不足时,阈值规则的状态。 “no_data”:数据不足并发送通知 “alerting”:告警 “ok”:正常 “pre_state”:保持上一个状态 枚举值: no_data alerting ok
ElasticSearch Exporter接入AOM实现指标监控 应用场景 使用ElasticSearch过程中需要对ElasticSearch运行状态进行监控,例如集群及索引状态等。Prometheus监控服务提供了CCE容器场景下基于Exporter的方式来监控Elasti
全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,可灵活扩展云原生组件指标插件。 不支持 支持 业务监控 将ELB上报到LTS的日志数据提取为指标来统一管理,便于后续在指标浏览、仪表盘界面实时监控。 不支持 支持 日志分析 通过日志接入和日志搜索功能帮
无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。 开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警” 告警标签 单击添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。 详细说明请参见标签和标注。
Memcached Exporter接入AOM实现指标监控 应用场景 使用Memcached过程中需要对Memcached运行状态进行监控,以便了解Memcached服务是否运行正常,排查Memcached故障等。Prometheus监控服务提供了CCE容器场景下基于Export
基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无
基础指标:虚机指标 介绍通过ICAgent上报到AOM的虚机指标的类别、名称、含义等信息。 当主机类型为“CCE”时,可以查看磁盘分区指标,支持的系统为:CentOS 7.6版本、EulerOS 2.5。 以root用户登录CCE节点,执行docker info | grep 'Storage
Integer 无数据周期的个数。 no_data_alert_state String 数据不足时,阈值规则的状态。 “no_data”:数据不足并发送通知 “alerting”:告警 “ok”:正常 “pre_state”:保持上一个状态 枚举值: no_data alerting ok
PostgreSQL Exporter接入AOM实现指标监控 应用场景 使用PostgreSQL过程中需要对PostgreSQL运行状态进行监控,以便了解PostgreSQL服务是否运行正常,及时排查PostgreSQL故障问题原因。Prometheus监控服务提供了CCE容器场
基础指标:Modelarts指标 介绍Modelarts通过Agent上报到AOM的指标。 表1 Modelarts通过Agent上报到AOM的指标 指标类别 指标 指标名称 指标含义 取值范围 单位 CPU ma_container_cpu_util CPU使用率 该指标用于统计测量对象的CPU使用率。
普罗语句说明 AOM对接了PromQL(Prometheus Query Language)语言,该语言内置了丰富的函数,用户可使用该内置函数对指标数据筛选和聚合。 按普罗语句添加指标时,用户可通过普罗语句自定义汇聚指标。 普罗语句语法 普罗语句语法详情可登录prometheus官网查看。
权限管理 如果您需要对AOM资源给企业中的员工设置不同的访问权限,以达到不同员工之间的权限隔离,您可以使用统一身份认证服务(Identity and Access Management,简称IAM)进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能,可以帮助您安全地控制AOM资源的访问。
统计图表说明(新版) 仪表盘功能支持通过统计图表的方式将指标数据、日志数据的查询和分析结果进行可视化展示。 指标数据类图表 指标类图表支持选择的图表类型有:折线图、数字图、TopN、表格、柱状图、数字折线图。 折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多
云服务、开源监控系统、Prometheus API/SDK接入和Prometheus 自定义插件接入的指标。 日志数据 请参见添加日志图表 监控业务指标或其他日志指标,如基于ELB日志清洗出来的接口黄金指标(时延、吞吐和错误)。 添加指标图表。参考表3设置相关参数,设置完成后单击“保存”。 图1 添加指标图表 表3 添加指标图表