检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
API 告警 监控 prometheus监控 日志 Prometheus实例 配置管理 UniAgent管理 应用资源管理(aom2.0接口) 自动化运维(aom2.0接口)
通过告警降噪清除告警风暴 本文档介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 实践场景 某电商运维人员在定位分析应用、资源及业务的实时运行状况时,发现系统上报的告警数量过大,重复性告警过多,需要从众多告警中快速及时发现故障,全面掌握应用。
规则的匹配条件。串行条件和并行条件的最大数量限制为10。 数组长度:1 - 10 mute_config 是 MuteConfig object 规则的生效时间配置 name 是 String 规则名称。名称包含大小写字母、数字、特殊字符(_)、不能以下划线开头或结尾,最大长度为100。 最小长度:1
规则的匹配条件。串行条件和并行条件的最大数量限制为10。 数组长度:1 - 10 mute_config 是 MuteConfig object 规则的生效时间配置 name 是 String 规则名称。名称包含大小写字母、数字、特殊字符(_)、不能以下划线开头或结尾,最大长度为100。 最小长度:1
操作日志 操作日志会记录显示用户对UniAgent和其他插件执行安装、升级、卸载日志操作。 查看UniAgent操作日志 登录AOM 2.0控制台。 在左侧导航栏中选择“设置”,进入全局配置界面。 在左侧导航栏中,选择“采集设置 > 操作日志 > UniAgent操作日志”。 可
Prometheus监控 Prometheus监控简介 创建Prometheus实例 管理Prometheus实例 配置预聚合规则 指标管理 仪表盘监控 数据多写 接入指南 获取Prometheus实例的服务地址 Prometheus实例读写地址支持公网的局点 通过Remote
基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无
示不同云资源的标签。该权限设置针对整个AOM 2.0服务生效。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏中选择“设置”,进入全局配置界面。 在左侧导航栏中选择“全局开关”,根据需要开启和关闭对应开关。 图1 全局开关 关闭“指标采集开关”后,ICAgent会停止虚机指标
用洞察”、“自动化运维”、“云服务监控”、“业务监控”等功能。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏中选择“设置”,进入全局配置界面。 在左侧导航栏中选择“菜单开关”,所有开关默认关闭,用户可以根据需要开启对应功能开关。 例如,“概览”开关开启后,“概览”功能会在控制台左侧导航栏中显示。
AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。 多集群容灾 AOM支持多集群方案,当一个集群异常时,可以继续提供服务。 数据容灾 AOM的配置、指标、告警等数据均是多副本存储,保证了数据可靠性。 父主题: 安全
桶中,以便进行长期存储。 日志数据的相关费用统一由LTS提供并上报话单,AOM不会双算。 指标数据:通过数据订阅功能,将指标数据转发到用户配置的DMS或Webhook的Topic中存储。
描述 type String 节点类型。 最小长度:1 最大长度:32 configuration Map<String,Object> 配置信息。 表8 Parameter 参数 参数类型 描述 param_name String 参数名称。 param_type String
单击“结构化”,将选择的日志数据结构化处理。结构化配置的字段默认显示在下方列表中。 设置完成后,单击“下一步”。 设置指标配置的相关信息。 单击“添加接入指标”,为创建的日志指标规则添加指标数据。具体的参数说明请参见表2。 图2 添加接入指标 表2 指标配置参数说明 类别 参数 设置方法 基本信息
远程过程调用 远程过程调用监控项可以对远程过程调用进行监控,可以监控的远程过程调用可包含GRPCServer等类型。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。 在左侧“快速筛选”栏中,选择“区域”、“应用”以及“技术栈”。
AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。 多集群容灾 AOM支持多集群方案,当一个集群异常时,可以继续提供服务。 数据容灾 AOM的配置、指标、告警等数据均是多副本存储,保证了数据可靠性。 父主题: 安全
消息队列 消息队列监控项可以对消息队列的访问进行监控,可以监控的消息队列包含KafkaProducer等类型。本章节主要对查看KafkaProducer监控进行介绍 操作步骤 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。 在左侧“快速
中心总览。 接入完成后,即可在“接入管理”的“指标接入规则”页签下查看配置的指标接入规则。 您还可以根据需要执行表1中的相关操作。 表1 相关操作 操作 说明 搜索指标接入规则 单击搜索框,可以根据“接入配置名称”、“接入方式”、“状态”搜索指标接入规则,也可以直接在搜索框中输入关键字搜索指标接入规则。
基础指标:Modelarts指标 介绍Modelarts通过Agent上报到AOM的指标。 表1 Modelarts通过Agent上报到AOM的指标 指标类别 指标 指标名称 指标含义 取值范围 单位 CPU ma_container_cpu_util CPU使用率 该指标用于统计测量对象的CPU使用率。
登录AOM 2.0控制台。 在左侧导航栏中,选择“采集设置 > 代理区域管理”,进入代理区域管理页面。 单击“新增代理区域”,在弹出的对话框中,配置参数。 表1 新增代理区域参数说明表 参数 说明 示例 代理区域名称 代理区域的名称。输入长度不能超过64个字符。 test 网络类型 选
format,Format、FORMAT等均不会高亮显示),以便帮您快速定位出异常。 图1 日志文件详情 (可选)单击该实例“操作”列的“配置转储”,将该实例的日志一次性转储到OBS桶的同一个.log日志文件中。具体操作详见添加一次性转储。 父主题: 日志分析(旧版)