功能架构说明:

托管&运行态:AOM可无缝对接多个上层运维服务,支持快速从应用管理与运维平台(ServiceStage)、函数工作流(FunctionGraph)和微服务引擎(Cloud Service Engine,CSE)等上层运维服务采集指标数据并实时、可视化呈现。

可观测性分析:基于四层指标体系(基础设施层指标、中间件层指标、应用层指标和业务层指标),通过事务监控、容器监控、普罗监控等功能,提供异常检测、历史数据分析、性能分析、关联性和场景化分析等可观测性分析能力。

采集管理:统一管理插件,并为AOM提供指令下发功能,如脚本下发和执行。

开放:支持原生PromQL数据上报,也可通过API等方式上报数据,并也可通过grafana查看数据,通过kafka转储数据。

应用运维管理 AOM的优势

  • 运维中心

    集中管理云监控、云日志、性能、Prometheus等多维度可观测性数据源,提供统一监控与分析。

    集中管理云监控、云日志、性能、Prometheus等多维度可观测性数据源,提供统一监控与分析。

  • 双视角

    应用视角基于CMDB为复杂应用提供可观测性分析能力,容器视角实现Kubernetes云原生用户短、平、快容器洞察。

    应用视角基于CMDB为复杂应用提供可观测性分析能力,容器视角实现Kubernetes云原生用户短、平、快容器洞察。

  • 自动化运维

    支持定时、周期和告警触发系统变更,提供批量主机下发脚本作业、批量定时开关机等运维操作。

    支持定时、周期和告警触发系统变更,提供批量主机下发脚本作业、批量定时开关机等运维操作。

  • 告警降噪

    提供分组、抑制和静默等告警降噪策略,在发送告警通知前按告警降噪规则对告警进行处理,从容应对海量告警风暴。

    提供分组、抑制和静默等告警降噪策略,在发送告警通知前按告警降噪规则对告警进行处理,从容应对海量告警风暴。

应用运维管理 AOM基本功能

更多功能总览,点击了解详情

  • 监控中心

    作为应用运维管理 AOM的一站式监控平台,提供从资源数据发现、资源数据展示到数据异常告警的全方位、可视化监控服务,可应用于ECS、RDS、CCE等云产品的可观测性分析。

    作为应用运维管理 AOM的一站式监控平台,提供从资源数据发现、资源数据展示到数据异常告警的全方位、可视化监控服务,可应用于ECS、RDS、CCE等云产品的可观测性分析。

  • 采集管理

    作为应用运维管理 AOM的采集管理平台,完成统一插件生命周期管理,并为AOM提供指令下发功能,如脚本下发和执行。UniAgent自身不提供数据采集能力,运维数据由不同的插件分工采集。

    作为应用运维管理 AOM的采集管理平台,完成统一插件生命周期管理,并为AOM提供指令下发功能,如脚本下发和执行。UniAgent自身不提供数据采集能力,运维数据由不同的插件分工采集。

应用运维管理 AOM应用场景

  • 应用性能诊断

    随着业务量的增长,企业对服务的高可用、可靠性提出新的要求,服务之间的相互依赖、调用关系愈发复杂, 管理对象成倍增加,给开发者、运维定位性能问题带来了极大的困难和挑战。华为云APM通过全面的应用性能数据帮助用户快速定位性能瓶颈

    优势

    自动梳理应用之间的依赖关系

    自动生成应用之间的访问拓扑图,发现应用、中间件、接口、实例间的调用关系,有异常的调用在拓扑图上清楚展示,帮助您在复杂的调 用关系中快速定位性能瓶颈,助力性能优化有的放矢

    全链路APM

    从用户侧到代码的全栈监控覆盖,让应用性能分析无盲点

    监控精准

    自研JAVA探针、事务洞察开启调用链全采样,确保数据更完整和准确

    随着业务量的增长,企业对服务的高可用、可靠性提出新的要求,服务之间的相互依赖、调用关系愈发复杂, 管理对象成倍增加,给开发者、运维定位性能问题带来了极大的困难和挑战。华为云APM通过全面的应用性能数据帮助用户快速定位性能瓶颈

    优势

    自动梳理应用之间的依赖关系

    自动生成应用之间的访问拓扑图,发现应用、中间件、接口、实例间的调用关系,有异常的调用在拓扑图上清楚展示,帮助您在复杂的调 用关系中快速定位性能瓶颈,助力性能优化有的放矢

    全链路APM

    从用户侧到代码的全栈监控覆盖,让应用性能分析无盲点

    监控精准

    自研JAVA探针、事务洞察开启调用链全采样,确保数据更完整和准确

  • 用户体验分析

    行业竞争激烈,用户对服务的体验要求高,尤其是用户体验成为互联网企业的核心竞争力。如何能获取用户的真实体验感受,减少流失率,提升用户转化率成为企业的难题

    优势

    了解真实用户的体验感受

    APM前端监控提供页面的性能、JS错误请求、API请求、服务的运营相关指标(PV,UV)情况,帮助 您掌控用户的真实体验情况,及时发现用户体验问题

    用户会话追踪

    通过用户会话追踪,定位使用过程中影响用户体验的慢请求、慢加载、慢交互、崩溃错误等问题

    页面加载性能分析

    提供多维度页面的首屏时间、白屏时间、可交互时间,页面的加载阶段指标数据,全面还原用户的体验感受,帮助您定位访问慢的原因

    行业竞争激烈,用户对服务的体验要求高,尤其是用户体验成为互联网企业的核心竞争力。如何能获取用户的真实体验感受,减少流失率,提升用户转化率成为企业的难题

    优势

    了解真实用户的体验感受

    APM前端监控提供页面的性能、JS错误请求、API请求、服务的运营相关指标(PV,UV)情况,帮助 您掌控用户的真实体验情况,及时发现用户体验问题

    用户会话追踪

    通过用户会话追踪,定位使用过程中影响用户体验的慢请求、慢加载、慢交互、崩溃错误等问题

    页面加载性能分析

    提供多维度页面的首屏时间、白屏时间、可交互时间,页面的加载阶段指标数据,全面还原用户的体验感受,帮助您定位访问慢的原因

应用运维管理 AOM常见问题解答

应用运维管理 AOM常见问题解答

应用运维管理 AOM帮你您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行

应用运维管理 AOM帮你您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行

  • AOM有哪些使用限制?

    AOM使用限制有三类:

    操作系统使用限制

    AOM支持多个操作系统,在购买主机时您需选择AOM支持的操作系统,否则无法使用AOM对主机进行监控。

    资源使用限制

    在使用AOM时,您需注意相关使用限制。

    服务使用限制

    在使用AOM时,当AMS-Access服务出现断电、或者异常重启的时候,部分主机、组件、容器等资源会出现一个采集周期的指标数据断点,该数据断点对于用户来讲监控页面上能看到一个断点,没有其他影响。如果对断点有要求,可以在“监控”->“指标浏览”页面中查看指标曲线时,将插值方式设置为0或者average,系统会自动补点。

  • AOM与APM有何区别?

    AOM与APM同属于立体化运维解决方案体系,共享采集器。AOM提供了应用级故障分析、告警管理、日志采集与分析等能力,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。APM提供了用户体验管理、分布式性能追踪、事务分析等能力,可以帮助运维人员快速解决应用在分布式架构下的问题定位和性能瓶颈等难题,为用户体验保驾护航。AOM提供基础运维能力,APM是对AOM运维能力的补充。AOM界面集成了APM,可通过AOM界面统一运维;APM也有独立的控制台入口,可以单独使用APM。

    图1 立体化运维解决方案

  • 如何区分告警和事件?

    告警和事件的相同点

    在AOM中告警和事件都是指AOM自身,或AOS、ServiceStage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。

    告警和事件的区别

    告警是AOM自身,或AOS、ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。

    事件是告诉您AOM自身,或AOS、ServiceStage、CCE等外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。

  • 时间范围和统计周期的关系

    AOM约束单个指标单次查询最大返回1440个数据点,因此统计周期与时间范围的关系如下所示:

    最大可查询时间范围=统计周期×1440

    当您选中的查询时间范围小于等于最大可查询时间范围时,所有满足以上条件的统计周期可以被选择。例如,查询1小时的指标时,可选的统计周期为1分钟和5分钟。

  • AOM展示的日志是否为实时日志?

    AOM展示的日志为近实时日志,日志存在秒级时延。

    日志从采集上报到处理需要一定的时间,日志量较小时日志会存在10秒左右的时延,日志量特别大时时延会久些。