检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询缓存,ETCD用来存储AOM的配置数据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
M提供指令下发,如脚本下发和执行。它自身不提供数据采集能力,运维由不同的插件分工采集,插件按需安装、升级和卸载。后续逐步上线其它插件(如云监控和主机安全),统一规范管理。 AK/SK 访问密钥。通过提供租户级别的AK/SK来安装ICAgent,以便于采集日志数据。 ICAgent
击文本框,选择对应的统计规则及其关键词,即可自动输入。同时,统计规则创建成功后,AOM会对关键词进行统计并生成指标,您可在“指标监控”页面对其进行监控。 查看搜索结果。 通过柱状图查看统计数据 柱状图展示了满足2中已设查询条件的日志条数在时间上的分布。横轴显示时间,并对横轴进行3
图。 折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多为连续时间间隔)上的变化情况,用于直观分析数据变化趋势。当需要监控一段时间内一个或多个资源的指标数据趋势时,请使用此类型图表。 使用折线图可对不同资源的同一指标进行对比,如下图所示,在同一个图表中展示了不同主机的CPU使用率。
一站式运维平台 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 AOM有哪些优势
子应用下的创建的组件数量<=50。 环境 组件下可创建的环境数量<=20。 资源 单个环境管理的同类实例资源数量<=2000。 资源监控使用限制 表2 资源监控使用限制 分类 对象 使用限制 仪表盘 仪表盘 1个区域中最多可创建1000个仪表盘。 仪表盘中的图表 1个仪表盘中最多可添加30个图表。
主机的操作系统满足AOM支持的操作系统(AOM支持的操作系统详见操作系统使用限制)且主机已安装ICAgent,即可将主机接入到AOM中进行监控。 ICAgent ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。安装ICAgent是使用AOM的前提,否则将无法正常使用AOM。
应用资源管理 表1 应用资源管理基本概念 术语 说明 应用资源管理 简称CMDB,在AOM2.0中管理应用与云资源的关系,并为AOM的监控、自动化运维、APM服务提供统一、及时的资源环境管理服务。 应用TOPO结构 资源与应用关系的层次结构。CMDB遵循“应用 + 子应用(可选)+
user_id String 用户id。 表6 MetricAlarmSpec 参数 参数类型 描述 monitor_type String 监控类型。 “all_metric”:全量指标 “promql”:PromQL “resource”:(日落)资源类型 枚举值: all_metric
知策略时,可通过此功能以您自定义消息模板的邮件、短信、飞书、企业微信、钉钉、语音、welink、HTTP或HTTPS形式通知指定的人员。如果您未创建任何消息模板,则采用默认消息模板。 功能介绍 支持邮件、短信、企业微信、钉钉、飞书、语音、welink、HTTP或HTTPS消息模板。
用于DNS解析域名,下载UniAgent包时解析OBS地址、解析UniAgent服务端地址。 1 允许 IPv4 TCP 443 100.125.0.0/16 采集监控数据上报到AOM服务端。 父主题: 采集管理
值这几个部分,采样点以时间线的方式在逻辑上组织起来。例如,kube_node_status_allocatable_cpu_cores指标监控了Kubernetes集群中每个节点的可分配CPU核心数,假设您的集群中包含3个节点,则采样点分布于3条不同的时间线上。若每个节点的采样周
点获取。 例如IAM服务在“华北-北京一”区域的Endpoint为“iam.cn-north-4.myhuaweicloud.com”。 监控接口、日志接口和弹性伸缩接口请使用AOM的终端节点,APM接口请使用APM的终端节点,详见终端节点。 resource-path:资源路径
AOM提供消息模板功能,可通过创建消息模板自定义配置通知消息,当AOM触发已设定的告警通知策略时,可通过此功能以您自定义消息模板的邮件、短信、企业微信、钉钉、语音、HTTP或HTTPS形式通知指定的人员。如果您未创建任何消息模板,则采用默认消息模板。 创建消息模板 在左侧导航栏中选择“告警
基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无
“CCE” “LTS” “AOM” monitor_objects 否 Array of Map<String,String> objects 监控对象列表。键值对形式,键值为: “event_type”:通知类型 “event_severity”:告警级别 “event_name”:事件名称
- (可用物理内存 + 可用虚拟内存)) / (物理内存容量 + 虚拟内存总量)。目前创建的虚机默认虚拟内存为0,在未配置虚拟内存的情况下,监控页面内存使用率,虚拟内存使用率相同。 物理磁盘已使用总容量和物理磁盘总容量指标仅统计本地磁盘分区的文件系统类型,不统计主机通过网络形式挂载
容器可以使用的虚拟内存限制 container_start_time_seconds 容器已经运行的时间 container_last_seen 最近一次监控采集器感知到容器的时间 container_accelerator_memory_used_bytes 容器正在使用的GPU加速卡内存量