检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
接入中心总览 AOM提供多场景、多层次、多维度指标与日志数据的监控能力,通过接入中心快速接入需要监控的指标和日志,接入完成后,即可方便地在“指标浏览”等页面查看相关资源或应用的运行状态、各个指标的使用情况、接入的日志等信息。 前提条件 已将ELB日志接入LTS。 业务层接入 通过该功能可获取提取的
基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无
通过多账号聚合Prometheus实例实现指标数据统一监控 本文档介绍通过配置统一监控告警,同时监控不同账号下的指标数据。 实践场景 某电商平台运维人员在监控指标时,只能实时监控一个账号下的指标数据,无法同时监控其他账号。 解决方案 AOM通过Prometheus监控功能,创建多账号聚合实例
组件监控 组件即您部署的服务,包括容器和普通进程。例如,云容器引擎(CCE)服务中的工作负载(workload)可以是一个组件,同时直接在虚机上运行的tomcat也可以是一个组件。 组件列表展示了每个组件的类型、CPU占用、内存占用和告警状态等信息,您可直观了解每个组件的运行状态。
组件列表 组件列表总览 拓扑 Profiler性能分析 Debugging诊断 接口调用 基础监控 异常 外部调用 通信协议 数据库 Web容器 消息队列 远程过程调用 日志 基础设施 调用链 组件设置 父主题: 应用监控
基础指标:虚机指标 介绍通过ICAgent上报到AOM的虚机指标的类别、名称、含义等信息。 表1 虚机指标说明 指标类别 指标 指标名称 指标含义 取值范围 单位 网络指标 aom_node_network_receive_bytes 下行Bps 该指标用于统计测试对象的入方向网络流速
基础指标:Modelarts指标 介绍Modelarts通过Agent上报到AOM的指标。 表1 Modelarts通过Agent上报到AOM的指标 指标类别 指标 指标名称 指标含义 取值范围 单位 CPU ma_container_cpu_util CPU使用率 该指标用于统计测量对象的
基础指标:IEF指标 介绍IEF服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。 表1 IEF服务监控指标 指标类别 分类 AOM呈现的指标 IEF上报的指标
容器组件指标及其维度 表1 容器指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_container_cpu_limit_core) 该指标用于统计测量对象限制的CPU核总量。 ≥1 核(Core) CPU内核占用(aom_container_cpu_used_core
Prometheus监控概述 Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘和全面托管的Prometheus服务。 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL
修订记录 表1 版本说明列表 发行时间 更新说明 2022-04-16 告警降噪功能优化。 2022-01-25 支持创建告警规则。通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警
基础指标:node-exporter指标 介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Job名称 指标 指标含义 node-exporter node_filesystem_size_bytes
产品架构 AOM是一个以资源数据为中心并关联日志、指标、资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。 架构图 图1 AOM架构 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器
告警模板 告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。 注意事项 您最多可创建150个告警模板,如果告警模板数量已达到150个,请删除不需要的告警模板后重新创建。 背景信息 AOM
用户高频问题 新创建应用、服务等资源后,AOM界面为何不实时显示监控数据? 当您新创建了主机、应用、组件、进程等资源后,ICAgent会以10分钟为周期进行周期性监控数据上报,AOM界面需要等待一个上报周期后方可展示相关监控数据。 删除主机、工作负载等资源后,AOM界面为何仍然显示资源状态为正常
云服务监控 云服务监控页面以曲线图、数字图等形式直观展示华为云各服务实例的运行状态、各个指标的使用情况等信息。 注意事项 如需使用“云服务监控”功能,需提前在“菜单开关”中开启云服务监控的开关,详细操作请参见菜单开关。 功能介绍 当前支持如下云服务的监控: 表1 云服务监控 类别
基础指标:容器指标 介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Target名称 Job名称 指标 指标含义 serviceMonitor/monitoring
Prometheus监控功能采集的指标数据,如何区分基础指标和自定义指标? 用户可以登录AOM控制台,进入Prometheus实例的详情界面,通过查看Prometheus监控功能采集的指标数据类型,区分基础指标和自定义指标。 具体操作如下: 登录AOM 2.0控制台。 在左侧导航栏选择
集群指标及其维度 集群指标由AOM通过主机指标汇聚,汇聚的集群指标不包含master节点的主机指标。 表1 集群指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_cluster_cpu_limit_core) 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core
虚机组件指标及其维度 AOM中,虚机组件指的是进程,虚机组件指标指的就是进程指标。 表1 进程指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_process_cpu_limit_core) 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) CPU内核占用