检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看AOM告警或事件 “告警列表”页面提供告警和事件的查询和处理功能,便于您更快地发现、定位并恢复故障。 功能介绍 在告警列表中,有以下关键功能: 告警列表:支持按告警级别图形化查看告警信息。 高级过滤:支持在搜索框中按告警级别 、告警源、告警关键字等条件进行过滤,默认按照告警级别过滤。
采集管理 表1 采集管理基本概念 术语 说明 UniAgent 统一数据采集Agent,完成统一插件生命周期管理,并为AOM提供指令下发,如脚本下发和执行。它自身不提供数据采集能力,运维由不同的插件分工采集,插件按需安装、升级和卸载。后续逐步上线其它插件(如云监控和主机安全),统一规范管理。
入口二:选择“Prometheus监控 > 实例列表”,单击ECS类型的Prometheus实例名称,进入目标实例详情页的“接入中心”页面,选择“Nginx”卡片。 在配置页面中,参考下表配置采集任务相关参数信息,并单击“下一步”。 图1 配置采集任务 表1 采集任务参数配置表 操作 参数 说明 选择实例
入口二:选择“Prometheus监控 > 实例列表”,单击ECS类型的Prometheus实例名称,进入目标实例详情页的“接入中心”页面,选择“Kafka”卡片。 在配置页面中,参考下表配置采集任务相关参数信息,并单击“下一步”。 图1 配置采集任务 表1 采集任务参数配置表 操作 参数 说明 选择实例
安全组规则。 在ECS详情页,单击安全组页签,进入安全组列表页。 单击具体的安全组名,单击“更改安全组规则”,进入安全组详情页。 在该安全组详情页,单击“入方向规则 > 添加规则 ”,按表 安全组规则添加安全组规则。 表1 安全组规则 方向 协议 端口 说明 入方向 TCP 81
如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中或取消选中可选列前的单选框,自定义可选列的展示与隐藏。 单击列表右上的,可以导出当前页的列表信息,最大支持导出100条。 父主题: 监控组件性能指标
在AOM上配置仪表盘和告警 通过仪表盘功能可视化监控CCE集群数据,通过告警规则功能,在集群发生故障时能够及时发现并预警。 配置仪表盘图表 登录AOM 2.0控制台。 在左侧菜单栏中选择“仪表盘”,单击“创建仪表盘”新建一个仪表盘,详情可参见创建仪表盘。 在仪表盘页面选择实例类型为“Prometheus
在AOM上配置仪表盘和告警 通过仪表盘功能可视化监控CCE集群数据,通过告警规则功能,在集群发生故障时能够及时发现并预警。 配置仪表盘图表 登录AOM 2.0控制台。 在左侧菜单栏中选择“仪表盘”,单击“创建仪表盘”新建一个仪表盘,详情可参见创建仪表盘。 在仪表盘页面选择实例类型为“Prometheus
网络指标及其维度 表1 网络指标 指标名称 指标含义 取值范围 单位 下行Bps(aom_node_network_receive_bytes) 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) 下行Pps(aom_node_network_receive_packets)
在页面右上角设置应用的时间范围,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围。 在过滤器上方的下拉列表中选择需要查看的应用。 单击事件卡片或列表进入该事件详情页面,查看事件的故障传播链。 故障传播链将展示调用链中的故障传播图谱,您可通过故障转播图谱定位根因。支持查看故障传播链的异常事件类型包括:
查询阈值规则列表(即将下线) 功能介绍 该接口用于查询阈值规则列表。 URI GET /v1/{project_id}/ams/alarms 替换接口请参考查询阈值规则列表。 请求消息 请求参数 请求参数如表1所示。 表1 请求参数 参数 是否必选 参数类型 取值范围 描述 project_id
登录AOM 1.0控制台。 在左侧导航栏中选择“配置管理 > Agent管理”。 在页面右侧的下拉列表框中选择“其他:用户自定义接入主机”。 选择主机后,单击“升级ICAgent”。 从下拉列表选择合适的AOM 2.0目标版本,单击“确定”。 ICAgent开始升级,升级ICAgent预
分钟发送一次告警通知直到告警被清除。 立即触发:满足筛选条件立即触发告警。 告警级别 事件告警的级别,包括: :表示紧急告警。 :表示重要告警。 :表示次要告警。 :表示提示告警。 设置完成,单击“确定”。 (可选)为CCEFromProm服务新增PromQL告警规则。 选择“新增告警规则
推荐配置自建Prometheus的prometheus.yml。具体操作如下: 登录AOM 2.0控制台。 在左侧导航栏选择“Prometheus监控 > 实例列表”,在实例列表中单击目标Prometheus实例的实例名称,进入Prometheus实例详情页面。 在左侧导航栏选择“设置”,在“服务地址”区域的
因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。 系统指标的命名空间:命名空间是固定不变的,均以“PAAS.”开头,如表1所示。 表1 系统指标命名空间 命名空间名称 说明 PAAS.AGGR 集群指标的命名空间。 PAAS.NODE 主机指标、网络指标、磁盘指标和文件系统指标的命名空间。
告警级别:阈值告警的级别,包括:紧急、重要、次要、提示。 图1 自定义静态阈值模板 单击“立即创建”。 更多静态阈值模板操作 静态阈值模板创建完成后,您还可以执行表1中的操作。 表1 相关操作 操作 说明 使用静态阈值模板创建一条批量阈值规则 单击“操作”列的“创建规则”,操作详见使用模板创建阈值规则。 修改静态阈值模板
在AOM上配置仪表盘和告警 通过仪表盘功能可视化监控CCE集群数据,通过告警规则功能,在集群发生故障时能够及时发现并预警。 配置仪表盘图表 登录AOM 2.0控制台。 在左侧菜单栏中选择“仪表盘”,单击“创建仪表盘”新建一个仪表盘,详情可参见创建仪表盘。 在仪表盘页面选择实例类型为“Prometheus
application/json 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 notified_histories Array of NotifiedHistoriesResult objects 通知历史列表。 表5 NotifiedHistoriesResult
监控(即将下线) 添加或修改应用发现规则(即将下线) 查询阈值规则列表(即将下线) 修改阈值规则(即将下线) 添加阈值规则(即将下线) 查询监控数据(即将下线) 父主题: 历史API
安全组规则。 在ECS详情页,单击安全组页签,进入安全组列表页。 单击具体的安全组名,单击“更改安全组规则”,进入安全组详情页。 在该安全组详情页,单击“入方向规则 > 添加规则 ”,按表 安全组规则添加安全组规则。 表1 安全组规则 方向 协议 端口 说明 入方向 TCP 81