检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
统计图表说明 仪表盘功能支持通过统计图表的方式将指标数据、日志数据的查询和分析结果进行可视化展示,支持的图表类型有折线图、数字图、状态图等。 指标数据类图表 指标数据类图表支持的图表类型:折线图、数字图、TopN、表格、柱状图、数字折线图。 折线图:属于趋势类分析图表,一般用于表
可观测性分析 基于四层指标体系(基础设施层指标、中间件层指标、应用层指标和业务层指标),通过事务监控、容器监控、普罗监控等功能,提供异常检测、历史数据分析、性能分析、关联性和场景化分析等可观测性分析能力。 运维自动化 提供批量磁盘清理、作业编排、脚本执行等功能,将日常运维操作服务化、标准化、自动化。
通过helm部署pod的yaml文件后,AOM无法检测到工作负载 问题描述 通过helm部署pod的yaml文件后,AOM无法检测到工作负载。 原因分析 通过对比helm部署pod的yaml文件和在CCE控制台部署的pod yaml文件,发现helm部署pod的yaml文件中缺少env参数。
智能合并模式开关功能当前仅在华北-北京四,华南-广州区域开放。系统默认关闭智能合并模式开关,打开开关后,用户可以按照选择的告警属性智能合并告警。 告警名称:触发的告警中有相同或相似的告警名称,智能合并为一组发送告警通知。 告警信息:提取触发的告警信息中关键特征,对告警进行算法聚类降噪,智能合并为一组发送告警通知。 所
应用运维管理-成长地图 | 华为云 应用运维管理 应用运维管理(简称AOM)是云上应用的一站式立体化运维管理平台,实时监控应用及云资源,采集各项指标、日志及事件等数据分析应用健康状态,提供告警及数据可视化功能,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况。 了解服务
百分比(%) NPU温度(aom_node_npu_temperature_centigrade) 该指标用于统计NPU的温度。 - 摄氏度(℃) 物理内存使用率(aom_node_memory_usage) 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
TopN接口平均响应时间突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟平均响应时间是否有异常突增点。 图7 TopN接口平均响应时间突增 TopN接口错误率突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟错误率是否有异常突增点。
功能介绍 事件巡检:提供基于应用性能管理APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常。 事件根因分析:提供基于应用性能管理APM平台的调用链追踪根因定位技术。可以从应用服务和流量Top N接口的指标、调用链维度,全局分析问题,快速诊断并定位故障根因。
本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率
基础设施监控 通过helm部署pod的yaml文件后,AOM无法检测到工作负载
通过拓扑图查看组件间调用关系 拓扑图展示服务之间一段时间的调用关系,可以是从调用方统计,也可以是从被调用方统计。通过拓扑图可以自动梳理组件之间的调用关系,帮助用户快速定位问题。 通过拓扑图查看组件查看间调用关系 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。
统计图表说明(新版) 仪表盘功能支持通过统计图表的方式将指标数据、日志数据的查询和分析结果进行可视化展示。 指标数据类图表 指标类图表支持选择的图表类型有:折线图、数字图、TopN、表格、柱状图、数字折线图。 折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多
据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
通过全局拓扑图查看应用间调用关系 拓扑图的每根线条代表服务之间一段时间的调用关系,可以是从调用方统计,也可以是从被调用方统计。通过拓扑图线条,可以查看该调用关系的趋势图;同时拓扑图也会展示中间件的调用关系。通过拓扑图,一方面可以自动梳理服务之间的调用关系,同时也可以从全局视角查看
构建指标告警、事件告警、日志告警的统一告警体系,提供分组、抑制和静默等告警降噪策略,结合告警通知和订阅等功能,帮助用户从容应对海量告警风暴,快速检测和修复业务告警。 统一可视化 支持对多种数据源,在同一个仪表盘中统一监控与分析,并以折线图、数字图等形式多样化、可视化呈现,帮助用户快速监
跨云服务的分布式应用监控:对于同时使用了多种云服务的分布式应用,提供统一的运维平台,便于您对业务进行立体排查。 告警灵活通知:提供多种异常检测策略并支持丰富的异常告警触发方式及API。 图1 巡检与问题定界 立体化运维 您需全方位掌控系统的运行状态,并快速响应各类问题。 AOM提
s 实例默认选择为指标浏览处的配置。 设置告警规则详情。指标与条件自动选择为指标浏览处配置,统计周期、检测规则等参数可按需设置。 如图3所示,“统计周期”设置为“1分钟”,“检测规则”设置为“平均值>0.5”,“触发条件”设置为“连续周期 3”,“告警级别”设置为,表示监控对象连续3个周期平均值大于0
处选择的指标。 指标的详细设置由统计周期、条件、检测规则、触发条件以及告警级别组成。指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3