检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
连续周期 连续多少个周期满足阈值条件后,发送阈值告警。 统计方式 指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。 阈值条件 阈值告警的触发条件,由判断条件(≥、≤、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
连续周期 连续多少个周期满足阈值条件后,发送阈值告警。 统计方式 指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。 阈值条件 阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
进行分析。 表1 指标参数说明 参数名称 说明 统计方式 指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。样本个数为指标数据点的计数。 统计时段 指标数据按照所设置的时间范围进行聚合。设置时间范围的方式包括:近30分钟、近1小时、近6小时、近1天、近1周、自定义时间段。
深入了解。 巡检与问题定界 日常运维中,遇到异常难定位、日志难获取等问题,需要一个监控平台对资源、日志、应用性能进行全方位的监控。 AOM深度对接应用服务,一站式收集基础设施、中间件和应用实例的运维数据,通过指标监控、日志分析、服务异常报警等功能,支持日常巡检资源、应用整体运行情况,及时发现并定界应用与资源的问题。
在组件层,主要监控组件的告警信息。支持从组件层面查询活动告警与历史告警,快速修复告警问题。 图1 组件监控 环境监控 在环境页面,以环境概览、日志、性能、调用链、告警的形式,深度的监控和分析环境的核心指标。针对预发环境、生产环境按环境进行指标观测,监控环境的进程状况、应用性能(错误数、请求数、平均响应时间)、告警分
维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。 云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体验、如何将散落的日志进行关联分析、如何快速追踪问题。
当前用于并行发送到远程存储的分片数 prometheus_remote_storage_shards_desired 分片队列期望基于输入样本和输出样本的比率运行的分片数 prometheus_remote_storage_shards_max 可用于并行发送到远程存储的分片数的最大值
进行分析。 表1 指标参数说明 参数 说明 统计方式 指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。 说明: 样本个数为指标数据点的计数。 统计周期 指标数据按照所设置的统计周期进行聚合。 统计周期与统计时段相关联,选择的时段不同,统计周期的显示也会相应变化。
分组条件 指标数据按指定字段分组聚合,对聚合的结果进行运算。 不分组 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。 “平均值 < 1” 触发条件 连续多少个周期满足阈值条件后,触发指标告警。 3 告警级别 指标告警的级别。
指标。 指标的详细设置由统计周期、条件、检测规则、触发条件以及告警级别组成。指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3”,告警
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
设置告警规则详情。 指标的详细设置由统计周期、条件、检测规则、触发条件以及告警级别组成。指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3”,告警
如下图所示,可实时查看主机的CPU使用率。 图2 数字图 表2 数字图图表配置说明 参数名称 说明 显示微缩图标 开启该功能后,将按照一定的比例将图标缩小,并增加折线图。 TopN:统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示
说明如下: 表8 指标参数说明 参数名称 说明 统计方式 指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。 样本个数表示指标数据点的计数。 统计周期 指标数据按照所设置的统计周期进行聚合。 统计周期与统计时段相关联,选择的时段不同,统计周期的显示也会相应变化。
控制。 2018-9-5 云应用立体运维,提供资源、应用、应用体验的全链路、多层次、一站式运维平台。 智能运维,提供智能阈值机制,基于机器学习动态阈值告警,提升监控效率。 端侧分析,支持移动APP和Browser性能指标分析和崩溃分析等,实现应用全端掌控。 事务洞察,支持自动发现事务性能问题,智能筛选,完成根因探究。
如下图所示,可实时查看主机的CPU使用率。 图2 数字图 表2 数字图图表配置说明 参数名称 说明 显示微缩图标 开启该功能后,将按照一定的比例将图标缩小,并增加折线图。 TopN:统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示
分组条件 指标数据按指定字段分组聚合,对聚合的结果进行运算。 不分组 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。 “平均值 > 1” 触发条件 连续多少个周期满足阈值条件后,触发指标告警。 3 告警级别 指标告警的级别。
分组条件 指标数据按指定字段分组聚合,对聚合的结果进行运算。 不分组 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。 “平均值 > 10” 触发条件 连续多少个周期满足阈值条件后,触发指标告警。 3 告警级别
分组条件 指标数据按指定字段分组聚合,对聚合的结果进行运算。 不分组 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。 “平均值 > 1” 触发条件 连续多少个周期满足阈值条件后,触发指标告警。 3 告警级别 指标告警的级别。