实践场景

用户体验至上的互联网时代,页面的响应速度、访问时延和页面的访问成功率常常会影响用户的体验,如果无法及时获知,就会导致流失大量用户,某商城的运维人员使用开源的监控软件,虽然能采集很多指标,但却分散在各处,无法统一展示。

解决方案

AOM能够实现云上应用的一站式立体化运维管理,在接入中心中可以接入业务、应用、中间件及基础资源的四层指标,在仪表盘中实现个性化监控,以及通过统一告警入口配置告警规则,实现业务的日常巡检,保障业务的正常运行。

AOM提供多场景、多层次、多维度指标数据的监控能力,建立了从基础设施层指标、中间件层指标、应用层指标到业务层指标的四层指标体系,将1000+种指标数据全方位呈现,数据丰富全面。

表1 AOM支持的四层指标体系

类型
来源
指标举例
如何接入

业务层指标

通常来源于端侧日志SDK、提取的ELB日志。

通常来源于事务监控或上报的自定义指标。


访问UV、访问PV、访问延时、访问失败率、访问流量情况等。

URL的调用次数、URL的最大并发数、URL的最大响应时间等。

接入业务层指标

应用层指标

通常来源于组件性能图表或接口性能数据。

接口调用次数、请求平均时延、错误调用次数、请求吞吐量等

接入应用层指标

中间件指标

通常来源于原生中间件或云中间件数据。

文件系统容量、文件系统使用率等

接入中间件指标

基础设施层指标

通常来源于容器或云服务相关数据,例如计算、存储、网络、数据库等。

CPU使用率、内存使用率、健康状态等

接入基础设施层指标

接入容器指标

接入云服务指标

前提条件

已将ELB日志接入LTS。

已为环境关联ECS资源。

步骤一:建设四层指标体系

1、接入业务层指标。

2、接入应用层指标。

3、接入中间件指标。

将数据上传到ECS服务器。

通过虚机接入方式接入中间件指标。

4、接入基础设施层指标。

流程详情参考建设四层指标体系

步骤二:配置统一监控大盘

1、创建指标告警规则。

通过指标告警规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。

按照配置方式的不同,创建指标告警规则可分为三种:按资源类型创建、按全量指标创建和按Prometheus命令创建。下面的操作以按资源类型创建为例说明。

2、创建仪表盘。

新建仪表盘,为仪表盘添加可视化图表。

应用运维管理AOM 常见问题

应用运维管理AOM 常见问题

  • 如何处理界面“ICAgent状态”为“离线”的问题?

    ICAgent安装完成后,界面“ICAgent状态”为“离线”。

    问题分析

    原因:AK/SK配置不正确或30200、30201端口未连通。

    影响:ICAgent无法正常使用。

    解决办法

    以root用户登录安装ICAgent的服务器。

    执行以下命令,检查AK/SK配置是否正确。

    配置AK/SK后,重新安装ICAgent。如果仍未安装成功,请执行4。

    查询端口连通性。


  • Agent安装失败相关类

    Agent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决?

    答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。

    Agent安装成功后,后续的心跳和注册都失败,代理机网络不通,如何解决?

    答:在目标机器上执行“telnet 代理机ip”,检查代理机和目标机器间的网络连通性。


  • 编排好的作业,能否在执行时再选择执行机,填入脚本参数等内容?

    在创建作业时,如需在每次执行作业时填入脚本参数,确认执行目标实例等,则需要配置全局参数,并在作业步骤中引用。

    操作步骤

    1、登录AOM 2.0控制台,在菜单栏单击“自动化运维”,进入“自动化运维”界面。

    2、在左侧导航栏中选择“作业管理”,单击右上角的“新建作业”。

    设置“添加全局参数”,创建参数类型为“字符串”的参数 param1, 创建参数类型为“主机列表”的参数param2,并保存。

    3、创建作业步骤,如创建脚本执行步骤时,可在“脚本参数”中通过 ${param1} 引用字符串参数,可在选择“目标实例”时选择“全局参数”,并通过下拉框选择 param2,保存作业步骤即可生效。

    4、作业创建完成后,可以在每次执行时填入 param1 的值,并选择执行目标实例,即确定 param2 的值。