检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
None 操作指导 应用运维管理 AOM 如何创建告警规则 04:10 创建告警规则
通过告警降噪清除告警风暴 本文档介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 实践场景 某电商运维人员在定位分析应用、资源及业务的实时运行状况时,发现系统上报的告警数量过大,重复性告警过多,需要从众多告警中快速及时发现故障,全面掌握应用。
据等多维度可观测性数据源。 全栈一体化监控 覆盖用户端、服务端及云产品所有监控数据,提供从数据发现、数据展示到数据异常告警的全方位、可视化监控服务,实现从上到下、从前端到后端的全栈一体化监控。 关联分析 应用和资源层层自动关联,通过应用、组件、实例、主机和事务等多视角下钻分析指标、日志、告警数据,直击异常。
0表示正常 1表示异常 无 aom_node_ntp_offset_ms NTP偏移量 该指标用于统计主机本地时间与NTP服务器时间的偏移量,NTP偏移量越接近于0,主机本地时间与NTP服务器时间越接近。 - 毫秒(ms) aom_node_ntp_server_status NTP服务器状态
ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1%
ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1%
丰富的异常告警触发方式及API。 图1 巡检与问题定界 立体化运维 您需全方位掌控系统的运行状态,并快速响应各类问题。 AOM提供从云平台到资源,再到应用的监控和微服务调用链的立体化运维分析能力。 优势 体验保障:实时掌控业务KPI健康状态,对异常事务根因分析。 故障快速诊断:分布式调用追踪,快速找到异常故障点。
升级失败 主机ICAgent升级失败,请登录服务器卸载后重新安装。 离线 AK/SK配置不正确或30200、30201端口未连通,处理操作详见如何处理界面“ICAgent状态”为“离线”的问题。 异常 主机ICAgent功能异常,请联系技术人员处理。 可能原因二:AOM不支持监控当前资源类型
类型,在资源列表中查看各个资源类型信息,参见表1。 图1 查看资源列表 资源管理界面有资源则展示该资源,无资源则不展示。 应用管理界面涉及到绑定环境的资源都会展示。 表1 资源列表 资源类型 子类型 信息 云服务器ECS - - 名称/ID、内网IP、弹性公网IP、主机名称、可用
格式为逗号分隔的ipv4:port。例如: 192.168.0.1:9092,192.168.0.2:9092 根据实际情况填写。 (可选)进入到“规则详情”,单击,配置Kafka SASL_SSL,参数如表2所示。 AOM当前仅支持Kafka SASL_SSL安全认证配置,如果目前实例已经开启Kafka
数据订阅至DMS需要在IAM委托界面增加名为 "apm_admin_trust"委托,请确认是否已经创建。创建“apm_admin_trust”委托的详细操作请参见如何创建委托apm_admin_trust。 输入DMS用户名和密码。 单击“验证并保存DMS配置信息”。 选择数据发送topic后,单击“确定”。
ICAgent”弹框中单击“查看”进入“虚机接入”界面,单击“安装UniAgent”,为ECS主机安装UniAgent。 UniAgent成功安装后,会自动上报ECS虚机指标到AOM。ECS虚机指标的详细说明请参见基础指标-虚机指标。 单击“ECS Node Exporter”卡片,在“ECS Node Exporter”弹框中安装Node