检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关联分析 应用和资源层层自动关联,通过应用、组件、实例、主机和事务等多视角下钻分析指标、日志、告警数据,直击异常。 精准告警 构建指标告警、事件告警、日志告警的统一告警体系,提供分组、抑制和静默等告警降噪策略,结合告警通知和订阅等功能,帮助用户从容应对海量告警风暴,快速检测和修复业务告警。
sDB DWS,LakeFormation,WAF,DRS,DDS,DC,CSS,EVS,CBR,APIG)以及ICAgent采集的CCE和ECS指标。 步骤一:被监控账号接入云服务资源 下面的操作以接入接入FunctionGraph、ECS为例说明。接入CCE与接入ECS类似,
户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。 图1 AOM产品结构图 托管&运行态 AOM可无缝对接多个上层运维服务,支持快
for CCE 云容器引擎 CCE 如果使用Prometheus for CCE、工作负载监控和集群监控,需要设置CCE FullAccess权限和CCE命名空间权限。 数据订阅 分布式消息服务Kafka版 如果使用数据订阅功能,需要设置DMS ReadOnlyAccess权限。
产品架构 AOM是一个以资源数据为中心并关联日志、指标、资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。 架构图 图1 AOM架构 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集
建设完整指标体系,实现立体化监控 本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。 实践场景 用户体验至上的互联网时代,页面的响应速度、访问时延和页面的访问成功率常常会影响用户的体验,如果无法及时获知,就会导致流失大量用户,某商城的运维
TopN:统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示了集群中资源占用最高的N个资源,默认展示占用最高的前五个资源。 当资源数量很多时,您想快速了解资源占用最高的资源,可在仪表盘中添加TopN图表,您只需要选择资源类型和指标,例如主机的CPU使用率,那么AO
TopN:统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示了集群中资源占用最高的N个资源,默认展示占用最高的前五个资源。 当资源数量很多时,您想快速了解资源占用最高的资源,可在仪表盘中添加TopN图表,您只需要选择资源类型和指标,例如主机的CPU使用率,那么AO
群的内存使用率的平均值。趋势图上方的值为最新时间点所有集群的CPU使用率的平均值和所有集群的内存使用率的平均值。 应用监控卡片 图2 应用监控 此卡片主要展示应用监控的指标数据。 应用、组件、容器和实例的运行状态。 选择一个应用,可呈现该应用的如下信息: 近30分钟网络流量数据的
并执行插件脚本,AOM就可以对相应的中间件及自定义插件指标进行监控,结合开源Grafana可以提供一站式全方位的监控体系,帮助业务快速发现和定位问题,减轻故障给业务带来的影响。 为了快速了解并进行中间件及自定义插件接入AOM服务,建议您按照如下步骤进行操作: 给虚机安装采集器底座
息。 应用发现 应用发现是指AOM通过配置的规则发现和收集您主机上部署的应用和关联的指标。 日志配置 提供日志配额和分词设置功能。 配额配置 当指标超过配额时,时间较早的指标将会被删除。 指标配额可通过切换基础版(受限免费)和按需版(按需计费)来修改。 指标配置 指标采集开关用来
标来跟踪对应云服务状态。除了查看监控数据,您还可以在云服务监控页面创建告警规则和导出原始监控数据。 查看监控指标 在监控指标页面上,您可以查看基于近1小时、近3小时 、近12小时、近 24小时、近7天和近30天收集的原始数据的图表。您可以自定义选择要查看的监控指标,数据可实现自动刷新。
方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为31天。 设置搜索条件后,单击,查看在已设时间范围内满足搜索条件的事件。 您可参考表1执行如下操作: 表1 操作说明 操作 方法 说明 查看事件统计数据 单击“事件分布图”,可通过柱状图查看在指定时间范围内和搜索条件下事件的统计数据。
方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为31天。 设置搜索条件后,单击,查看在已设时间范围内满足搜索条件的告警。 您可参考表1执行如下操作: 表1 操作说明 操作 方法 说明 查看告警统计数据 单击“告警分布图”,可通过柱状图查看在指定时间范围内和搜索条件下告警的统计数据。
当OU和成员账号所属关系变化时,AOM不会自动同步OU和成员账号的关系信息。 创建多账号聚合Prometheus实例 登录AOM 2.0控制台。 在左侧导航栏选择“Prometheus监控 > 实例列表”,然后单击“创建Prometheus实例”。 设置实例名称、企业项目和实例类型信息。
httpclient错误率(TOP10) HttpClient错误率由高到低排序,前10位的组件环境。 在“应用”和“区域”下拉框中选择需要监控的应用和区域,即可查看不同应用和区域的概览指标数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的指标数据。可通过如下两种方式设置时间范围:
果在步骤2中下拉列表框中选择的是“其他:用户自定义接入主机”,则先选择主机后单击“升级ICAgent”。 (当前仅在北京四、上海一、上海二和广州区域开放)从下拉列表选择合适的目标版本,单击“确定”。 ICAgent开始升级,升级ICAgent预计需要1分钟左右,请耐心等待。待IC
手动升级 引导用户如何将AOM 1.0 的数据迁移至AOM 2.0 ,目前仅支持日志升级、采集器升级和告警规则升级功能。 功能介绍 日志升级 日志升级后,容器日志和虚机日志均接入AOM 2.0,历史虚机日志可登录AOM 1.0查看。 采集器升级 采集器升级后,进程发现能力增强,并且可自动适配指标浏览服务相关功能。
图4 TopN接口错误率突增 应用服务整体流量不均:基于应用下所有实例的流量数据,展示应用下最大流量和最小流量实例的流量和时延数据,并展示应用下流量Top5的接口在最大流量和最小流量实例上的分布,快速定位受影响接口。单击所展示的接口,可详细追踪接口近期的调用情况。 图5 应用服务整体流量不均
以在ECS、BMS直接购买,也可以通过CCE间接购买。 安装ICAgent(必选) ICAgent是AOM的采集器,用于实时采集指标、日志和应用性能数据。对于在ECS控制台直接购买的主机,您需要手动安装ICAgent。对于通过CCE购买的主机,ICAgent会自动安装。 配置应用发现规则(可选)