检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
再发送通知,避免产生告警风暴。 应用场景 某电商运维人员在定位分析应用、资源及业务的实时运行状况时,发现系统上报的告警数量过大,重复性告警过多,无法及时从众多告警中及时发现故障,全面掌握应用情况。 解决方案 下面以监控ELB业务层全量指标为例说明,如何使用分组规则清除告警风暴。
以获得一定程度的价格优惠。 功能介绍 表1 功能介绍 功能名称 说明 查看应用性能指标 应用概览页面展示应用维度的指标数据,包含url调用次数、url平均响应时间、url错误率等;同时支持“购买特惠包”以及“接入应用”。 监控组件性能指标 组件列表展示组件不同的指标监控项,AOM支持查看组件的指标监控项。
数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
数据不足事件。 告警规则分为阈值规则和事件类告警规则两种。通常情况下,通过阈值规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规
接入业务层指标 通常来源于事务监控或上报的自定义指标。 URL的调用次数、URL的最大并发数、URL的最大响应时间等 应用层指标 通常来源于组件性能图表或接口性能数据。 接口调用次数、请求平均时延、错误调用次数、请求吞吐量等 接入应用层指标 中间件指标 通常来源于原生中间件或云中间件数据。
templating Object 仪表盘变量列表。 display String 是否展示。 query_count String 查询总次数。 time_range String 默认查询时间范围。 请求示例 查询所有仪表盘详情 https://{Endpoint}/v2/{p
磁盘读取速率、磁盘写入速率、磁盘使用率。 主机指标 CPU内核总量、物理内存使用率、主机状态、NTP偏移量。 应用性能指标 请求平均时延、错误调用次数、请求吞吐量。 更多指标可参见《AOM产品介绍》“指标总览”章节。 使用步骤 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加阈值”。
别、自定义属性、命名空间、集群名称中选择一个或多个作为事件的过滤条件。 触发策略 事件类告警的触发策略。 累计触发:某个监控周期内达到累计次数则触发告警行动规则。 立即触发:满足筛选条件立即产生告警。 图2 设置告警规则 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
位字符串 最小长度:32 最大长度:32 job_reference_number Integer 脚本版本的引用次数,脚本版本被作业引用的次数。默认是0次,引用次数为非负整数,不能出现负数 最小值:0 最大值:9999999 script_id String 脚本id,根据UUID
templating Object 仪表盘变量列表。 display String 是否展示。 query_count String 查询总次数。 time_range String 默认查询时间范围。 请求示例 查询仪表盘id为f804-03-4f-b**9-bf32f**f的详情
通过AOM告警分组规则清除ELB告警风暴 本文档介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 通过多账号聚合Prometheus实例实现指标数据统一监控 本文档介绍通过配置统一监控告警,同时监控不同账号下的指标数据。 自定义OS镜像自动接入采集管理器Uniagent
件处理。 触发方式 事件类告警的触发方式。 累计触发:某个监控周期内达到累计次数则触发告警,按照设置的频率发送对应的事件告警通知。 例如,设置事件名称为“数据卷扩容失败”,监控周期为“20分钟”,累计次数为“3”,频率为“每5分钟”,则表示20分钟内累计3次发生数据卷扩容失败事件
告警。 告警规则 告警规则分为指标告警规则和事件告警规则两种。 通过指标告警规则,实时监控环境中主机、组件等资源使用情况。 当资源使用告警过多,告警通知过于频繁时,通过事件告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 告警通知 告警通知有2种方式: 直接告
Agent版本2.4.16-profiler/2.4.16-profiler-jdk17及以后版本优化内容如下: 数据库SQL采集器支持设置和采集慢SQL次数和数据库名称。 URL采集器支持基于URL和异常类型统计异常数。 2.4.15-profiler 2.4.15-profiler-jdk17
负责。企业可以通过成本分配的方式,将云上成本分组,归集到特定的团队或项目业务中,让各责任组织及时了解各自的成本情况。 华为云成本中心支持通过多种不同的方式对成本进行归集和重新分配,您可以根据需要选择合适的分配工具。 通过关联账号进行成本分配 企业主客户可以使用关联账号对子客户的成
资源监控 接入中心 快速接入需要监控的业务层、应用层、中间件层、基础设施层指标。 不支持 支持 仪表盘 将不同图表展示到同一个屏幕上,通过多种图表形式展示资源的指标、日志和性能数据。 部分支持 只支持指标数据和系统性能数据的可视化监控,不支持日志数据的监控。 支持 告警管理 对
“<=”,当trigger_type为“immediately”时 不填。 thresholds Map<String,Integer> 键值对形式,键为告警级别,值为累计次数,当trigger_type为“immediately”时 值为空。 frequency String 事件类告警频率。当trigger_type为“immediately”时
触发周期 最小值:1 最大值:86400 operator String 比较符 最小长度:0 最大长度:8 count Integer 触发次数 最小值:1 最大值:100 level String 告警等级 最小长度:0 最大长度:32 表7 SmnTopics 参数 参数类型 描述
和分组字段。数据迟到1分钟,将不参与统计。 支持以下统计类型: count: 统计日志条数。 countKeyword: 统计关键词出现的次数。 sum: 统计指定字段求和值。 avg: 统计指定字段平均值。 max: 统计指定字段最大值。 min: 统计指定字段最小值。 P50: