实践场景
用户体验至上的互联网时代,页面的响应速度、访问时延和页面的访问成功率常常会影响用户的体验,如果无法及时获知,就会导致流失大量用户,某商城的运维人员使用开源的监控软件,虽然能采集很多指标,但却分散在各处,无法统一展示。
解决方案
AOM能够实现云上应用的一站式立体化运维管理,在接入中心中可以接入业务、应用、中间件及基础资源的四层指标,在仪表盘中实现个性化监控,以及通过统一告警入口配置告警规则,实现业务的日常巡检,保障业务的正常运行。
AOM提供多场景、多层次、多维度指标数据的监控能力,建立了从基础设施层指标、中间件层指标、应用层指标到业务层指标的四层指标体系,将1000+种指标数据全方位呈现,数据丰富全面。
表1 AOM支持的四层指标体系
类型
|
来源
|
指标举例
|
如何接入
|
---|---|---|---|
业务层指标 |
通常来源于端侧日志SDK、提取的ELB日志。 通常来源于事务监控或上报的自定义指标。 |
访问UV、访问PV、访问延时、访问失败率、访问流量情况等。 URL的调用次数、URL的最大并发数、URL的最大响应时间等。 |
|
应用层指标 |
通常来源于组件性能图表或接口性能数据。 |
接口调用次数、请求平均时延、错误调用次数、请求吞吐量等 |
|
中间件指标 |
通常来源于原生中间件或云中间件数据。 |
文件系统容量、文件系统使用率等 |
|
基础设施层指标 |
通常来源于容器或云服务相关数据,例如计算、存储、网络、数据库等。 |
CPU使用率、内存使用率、健康状态等 |
前提条件
已将ELB日志接入LTS。
已为环境关联ECS资源。
步骤一:建设四层指标体系
步骤二:配置统一监控大盘
1、创建指标告警规则。
通过指标告警规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。
按照配置方式的不同,创建指标告警规则可分为三种:按资源类型创建、按全量指标创建和按Prometheus命令创建。下面的操作以按资源类型创建为例说明。
2、创建仪表盘。
新建仪表盘,为仪表盘添加可视化图表。