应用与资源配置管理

当应用模型层级复杂,需要通过应用快速找到依赖的云资源,以应用为基础,配置统一监控大盘、阈值告警、告警降噪策略、权限管理和变更管理等

优势

应用模型灵活

支持应用/子应用(可选)/组件/环境,最多6级模型关系

容器挂载配置

用户只需要在工作负载中添加应用、组件和环境名称,容器可自动挂载CMDB树

基于CMDB的可观测分析

AOM支持将指标、日志和性能数据关联至CMDB应用上,用户可统一对应用与资源运维分析

应用进程发现

发现规则支持通过环境变量或进程启动命令行提取CMDB信息,采集器在采集指标、日志时同步完成CMDB树创建

立体化监控

AOM通过融合APM、LTS和CES,打造立体化监控平台。业务指标可通过APM事务或ELB负载均衡日志提取,应用指标通过APM应用性能或Prometheus获取,资源指标直接集成云监控。同时用户也可将不同维度指标关联到CMDB树上,按应用模型统一管理

优势

全方位监控

覆盖基础设施、云数据库、云中间件、应用等多个维度监控。提供一站式运维能力

故障关联分析

通过应用、组件、环境等多维度关联和分析上百种运维指标和告警数据,以便您迅速定位故障原因

数据开放

应用运维管理产品架构

AOM是一个以资源数据为中心并关联日志、指标、资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。

采用三层架构

数据采集接入层

ICAgent采集数据

给主机安装ICAgent(插件式的数据采集器)并通过ICAgent上报相关的运维数据。

API接入数据

通过AOM提供的OpenAPI接口或者Exporter接口,将业务指标作为自定义指标,接入到AOM。

传输存储层

数据传输:AOM Access是用来接收运维数据的代理服务,运维数据接收上来之后,会将数据投放到Kafka队列中,利用Kafka高吞吐的能力,实时将数据传输给业务计算层。

数据存储:运维数据经过AOM后端服务的处理,将数据写入到数据库中,其中Cassandra用来存储时序的指标数据,Redis用来查询缓存,ETCD用来存储AOM的配置数据,ElasticSearch用来存储资源、日志、告警和事件。

业务计算层

AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。

应用运维管理AOM 常见问题

应用运维管理AOM 常见问题

  • 在主机上手工安装ICAgent后提示安装成功,但采集器管理器界面上提示状态异常?

    状态异常说明您安装的AK/SK等凭据不正确,或者使用委托安装的方式但没有设置委托导致,请参考如何通过创建委托获取AK/SK,获取AK/SK重新安装ICAgent即可。


  • 如何处理界面“ICAgent状态”为“离线”的问题?

    ICAgent安装完成后,界面“ICAgent状态”为“离线”。

    问题分析

    原因:AK/SK配置不正确或30200、30201端口未连通。

    影响:ICAgent无法正常使用。

    解决办法

    以root用户登录安装ICAgent的服务器。

    执行以下命令,检查AK/SK配置是否正确。

    配置AK/SK后,重新安装ICAgent。如果仍未安装成功,请执行4。

    查询端口连通性。


  • Agent安装失败相关类

    Agent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决?

    答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。

    Agent安装成功后,后续的心跳和注册都失败,代理机网络不通,如何解决?

    答:在目标机器上执行“telnet 代理机ip”,检查代理机和目标机器间的网络连通性。


  • 编排好的作业,能否在执行时再选择执行机,填入脚本参数等内容?

    在创建作业时,如需在每次执行作业时填入脚本参数,确认执行目标实例等,则需要配置全局参数,并在作业步骤中引用。

    操作步骤

    1、登录AOM 2.0控制台,在菜单栏单击“自动化运维”,进入“自动化运维”界面。

    2、在左侧导航栏中选择“作业管理”,单击右上角的“新建作业”。

    设置“添加全局参数”,创建参数类型为“字符串”的参数 param1, 创建参数类型为“主机列表”的参数param2,并保存。

    3、创建作业步骤,如创建脚本执行步骤时,可在“脚本参数”中通过 ${param1} 引用字符串参数,可在选择“目标实例”时选择“全局参数”,并通过下拉框选择 param2,保存作业步骤即可生效。

    4、作业创建完成后,可以在每次执行时填入 param1 的值,并选择执行目标实例,即确定 param2 的值。