检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选中一个或多个同类型告警规则前的复选框,在弹出框中单击“告警通知”,即可为选中的告警规则批量设置告警通知策略。根据告警规则类型的不同,具体操作请参见设置告警通知策略1或设置告警通知策略2。 搜索告警规则 支持按规则名称等信息搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。 查看告警规则详细信息
JSON数组大小不超过20 period 是 Integer 监控数据粒度。取值范围(枚举):60(表示粒度为1分钟),300(表示粒度为5分钟),900(表示粒度为15分钟),3600(表示粒度为1小时)。 statistics 是 Array of strings 统计方式。 取值范围
某电商运维人员在定位分析应用、资源及业务的实时运行状况时,发现系统上报的告警数量过大,重复性告警过多,需要从众多告警中快速及时发现故障,全面掌握应用。 解决方案 AOM通过设置告警规则,实时监控环境中主机、组件等资源使用情况。当产品自身或外部服务存在异常情况时,立即触发告警。并提供告警降
题。 注意事项 如需使用“日志流”功能,需提前在“菜单开关”中开启日志流的开关,详细操作请参见菜单开关。 使用日志分析(新版)功能的区域没有日志流功能。 设置过滤器 登录AOM 2.0控制台。 在左侧导航栏中选择“日志分析 > 日志流”。 在“日志流”页面左侧过滤器中,以不同的视
输入模板名称,选择资源类型,设置指标名称、统计方式、阈值条件等参数。 统计方式:指标数据按照所设置的统计方式进行聚合。 阈值条件:阈值告警的触发条件,由判断条件(≥、≤、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。 连续
统计时段 指标数据按照所设置的时间范围进行聚合。设置时间范围的方式包括:近30分钟、近1小时、近6小时、近1天、近1周、自定义时间段。 刷新频率 指标数据按照所设置的频率进行刷新。包括:手动刷新、30秒、1分钟、5分钟。 (可选)设置指标数据的展示形式。 在页面右侧单击图表类型后的向下箭
内存使用率的平均值。 应用监控卡片 图2 应用监控 此卡片主要展示应用监控的指标数据。 应用、组件、容器和实例的运行状态。 选择一个应用,可呈现该应用的如下信息: 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所选应用的接收Bps、发送Bps
事件类告警的触发策略。 累计触发:某个监控周期内达到累计次数则触发告警行动规则。 立即触发:满足筛选条件立即产生告警。 图2 设置告警规则 设置告警通知策略。告警通知策略有两种方式,请根据需要选择: 直接告警:满足告警条件,直接发送告警。 需要设置是否启用告警行动规则。启用后,系统根据
一键迁移 引导用户快速将仪表盘和告警规则数据从AOM 1.0一键迁移至AOM 2.0。 注意事项 告警规则一键迁移提供全量规则迁移和迁移结果查询的能力。 后台判断用户是否进行过迁移(迁移状态:未迁移,迁移中,迁移完成) 如果进行过迁移,显示迁移完成的弹框。 如果没有进行过迁移,显示一键迁移的弹框。
一键迁移 引导用户快速将仪表盘和告警规则数据从AOM 1.0一键迁移至AOM 2.0。 注意事项 告警规则一键迁移提供全量规则迁移和迁移结果查询的能力。 后台判断用户是否进行过迁移(迁移状态:未迁移,迁移中,迁移完成) 如果进行过迁移,显示迁移完成的弹框。 如果没有进行过迁移,显示一键迁移的弹框。
CCE是一个企业级的集群托管服务,基于云服务器快速构建高可靠的容器集群,帮助您轻松创建和管理多样化的容器工作负载。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及
划线(-)组成的1~64位字符串,且必须以字母开头。 策略名称(不支持修改) policy_type 是 String 告警策略:ALARM 策略类型(当前只支持告警策略) rule 是 参见表4 - 触发策略的规则 表4 rule字段数据结构说明 参数名称 是否必选 参数类型 取值范围
约束与限制 应用资源管理使用限制 表1 应用资源管理使用限制 对象 使用限制 应用 租户创建的应用个数<=1000。 子应用 应用下创建的子应用数量<=50。 组件 子应用下的创建的组件数量<=50。 环境 组件下可创建的环境数量<=20。 资源 单个环境管理的同类实例资源数量<=2000。
则需设置通知策略,选择已创建的主题,选择触发场景。 如不需接收邮件或短信通知,请选择“否”。 触发场景:发送通知的触发条件。 触发场景您可选择多个。例如,当阈值状态变为超限阈值时,您需要收到通知,则触发场景选择超限阈值;只要阈值状态发生变化时,您都需要收到通知,则触发场景可以全选。
异常点及其上界。 应用服务整体平均响应时间突增:基于应用历史3小时数据,判断最近10分钟平均响应时间是否有异常突增点。 图5 应用服务整体平均响应时间突增 应用服务整体错误率突增:基于应用历史3小时数据,判断最近10分钟应用错误率是否有异常突增点。 图6 应用服务整体错误率突增
envoy_cluster_circuit_breakers_default_cx_open 连接断路器触发状态 0:连接断路器低于其并发限制。 1:连接断路器已达到容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_open
修改后的策略详细信息 表3 policy数据结构说明 参数名称 参数类型 描述 id String 策略ID name String 策略名称 policy_type String 策略类型 rule 参见表4 触发策略的规则 create_time String 创建时间 update_time String
组件监控是全量监控,监控对象为通过CCE部署的工作负载、通过ServiceStage创建的应用,或直接在ECS或BMS上部署的组件。 容器监控的对象仅为通过CCE部署的工作负载、通过ServiceStage创建的应用。 组件监控详细操作请参见:组件监控。 父主题: 资源监控
及其以上版本,上表所列的其他操作系统对应版本均支持。 资源使用限制 在使用AOM时,您需注意以下使用限制,详见表2。使用限制中部分内容属于配额,关于什么是配额以及怎样查看与修改配额,详见关于配额。 表2 资源使用限制 分类 对象 使用限制 仪表盘 仪表盘 1个区域中最多可创建50个仪表盘。
指标的详细设置由统计周期、条件、检测规则、触发条件以及告警级别组成。指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3”,告警级别为“紧急