检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
阈值告警最佳实践(旧版) 该功能对非洲-约翰内斯堡、拉美-墨西哥城一、拉美-墨西哥城二、拉美-圣保罗一和拉美-圣地亚哥区域生效。 告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题
基本概念 指标 指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。 其中,命名空间特指指标的命名空间,可将其理解为存放指标的容器,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中。维度是指标的分类,每个指标都包含用于描述该指标的特定特征
Nginx组件接入 操作场景 您可以直接使用AOM内置的Nginx插件来创建采集任务,通过快捷安装配置Nginx插件,就可以监控Nginx相关指标。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 已启用NGINX stub_status
HAProxy组件接入 操作场景 您可以直接使用AOM内置的HAProxy插件来创建采集任务,通过快捷安装配置HAProxy插件,就可以监控HAProxy相关指标。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 操作步骤 登录AOM
概述 Debugging诊断可协助用户分析线程状况,获取方法及对象实时参数。方便开发人员从实时的远程应用程序中获取调试信息,而无需重新启动应用程序,也不会阻止它并导致服务停机。 使用限制 为了应用运行稳定,强烈建议您按照要求升级JDK版本,在低版本的JDK上使用Debugging诊断功能
RabbitMQ组件接入 操作场景 您可以直接使用AOM内置的RabbitMQ插件来创建采集任务,通过快捷安装配置RabbitMQ插件,就可以监控RabbitMQ相关指标。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 操作步骤
Kafka组件接入 操作场景 您可以直接使用AOM内置的Kafka插件来创建采集任务,通过快捷安装配置Kafka插件,就可以监控Kafka相关指标。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 操作步骤 登录AOM 2.0控制台
仪表盘监控 通过系统预置的仪表盘模板,用户可以快速监控云服务类型和default类型Prometheus实例的指标数据,及时定位并发现资源数据存在的问题,提升运维效率。 前提条件 服务已接入云服务类型Prometheus监控并接入云服务,具体请参见Prometheus实例 for
Redis组件接入 操作场景 您可以直接使用AOM内置的Redis插件来创建采集任务,通过快捷安装配置Redis插件,就可以监控Redis相关指标。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 操作步骤 登录AOM 2.0控制台
MongoDB组件接入 操作场景 您可以直接使用AOM内置的MongoDB插件来创建采集任务,通过快捷安装配置MongoDB插件,就可以监控MongoDB相关指标。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 操作步骤 登录AOM
指标浏览 指标浏览展示了各资源的指标数据,您可实时监控指标值及趋势,还可对关注的指标进行创建阈值规则等操作,以便实时查看业务及分析数据关联分析。 监控指标 在左侧导航栏中选择“监控 > 指标浏览”。 选择指标: 华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南
安装了ICAgent,但是监控不到主机是什么原因? 问题描述 安装了ICAgent,且节点上ICAgent进程正常,但是无法监控到主机。 可能原因 一般情况下,在AOM页面看不到主机主要有以下几种原因: ICAgent未安装成功 ICAgent安装成功但是配置错误 ICAgent安装成功但是数据采集失败
概述 该功能对华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域生效。 通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警
创建事件告警规则 通过事件告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏中选择
创建事件类告警规则 通过事件类告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM控制台,在左侧导航栏中选择
什么是应用运维管理 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案
异常 异常监控项是对应用的异常日志进行监控,比如java的日志异常监控,一旦用户采用log系统打印日志,就会被采集上来。具体的异常采集类型会根据不同的采集器类型有变化。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。 在左侧“快速筛选
服务韧性 AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务
服务韧性 AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务
故障传播链分析 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 功能入口 登录AOM 2.0控制台。 在菜单栏选择“监控中心”,进入“监控中心”界面