检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
清除告警,您需要手动清除告警。 告警规则 告警规则分为指标告警规则和事件告警规则两种。 通过指标告警规则,实时监控环境中主机、组件等资源使用情况。 当资源使用告警过多,告警通知过于频繁时,通过事件告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 告警通知 告警通知有2种方式:
本地缓存)、最近访问、告警统计、最新告警、功能上线公告和FAQ等信息。 日志搜索与分析 当需要通过日志来分析和定位问题时,使用日志搜索功能可帮您快速在海量日志中查询到所需的日志,还可通过分析日志的来源信息和上下文原始数据快速定位问题。 日志应用 LTS支持接入多种云产品标准日志,
告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。 应用发现最佳实践 应用发现是指AOM通过配置的规则发现和收集主机上部署的应用和关联的指标。可在“应用监控”界面和“监控概览”界面查看发现的应用和应用对应的指标数据。
求可以通过提交工单申请开放此功能。 操作流程 ECS主机安装 UniAgent:为AOM服务控制台所在Region区主机安装UniAgent,统一管理指标采集插件。 创建主机组:主机进行虚拟分组,便于分类管理、提升配置多个主机数据采集的效率。 接入弹性云服务器ECS:通过接入ECS,您可以为主机组安装Node
设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。 方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中或取消选中可
CE集群指标上报到AOM,用户无需手动接入。 配置告警行动规则:通过创建告警行动规则关联SMN主题与消息模板,当CCE的指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 配置告警:通过创建告警规则对CCE的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。
基础设施监控 通过helm部署pod后,AOM无法查找到工作负载
日志分析 AOM展示的日志是否为实时日志? 怎样查看AOM中的日志是通过哪个应用产生的?
接入管理 概述 将Prometheus的数据上报到AOM 通过grafana查看AOM中的指标数据 父主题: 配置管理
显示查询到的日志条数。 图1 通过柱状图查看统计数据 将鼠标移至矩形块,提示信息显示了该矩形块代表的时间范围(起始时间和结束时间)及该时间范围内满足查询条件的日志条数。单击矩形块(单击,可取消选中),日志列表会同步展示该矩形块相应的日志内容。 通过日志列表查看日志内容 日志列表中
http-metrics containerPort: 9187 获取指标。 通过“curl http://exporter:9187/metrics”无法获取Postgres实例运行时间,可以通过自定义一个queries.yaml来获取该指标。 创建一个包含queries.yaml的配置。
且不能以下划线开头,您最多可创建10个自定义标签。 如果在创建告警规则时设置了告警标签,触发的告警会自动添加该标签为告警属性。 消息模板中通过$event.metadata.key1变量获取告警标签信息,具体请参见消息模板变量说明。 告警标注特征 告警标注主要应用于告警通知、消息模板等场景,为告警非标识性属性。
http-metrics containerPort: 9187 获取指标。 通过“curl http://exporter:9187/metrics”无法获取Postgres实例运行时间,可以通过自定义一个queries.yaml来获取该指标。 创建一个包含queries.yaml的配置。
境。每个环境都有region属性,可以通过region信息实现环境的过滤,也可以在创建环境时打上一个或多个标签,通过标签进行环境过滤。例如按照环境类型区分包括:正式、测试。 环境标签 为环境设置的一个属性,多个环境可能具有相同的的标签,通过标签可过滤显示需要的环境。同一个标签只能
关联数据和高频操作进行集中化展示。 当前仅Prometheus for CCE 实例支持。 表2 监控指标采集 功能 功能说明 指标管理 通过新增ServiceMonitor或PodMonitor的方式为应用配置Prometheus监控的采集规则,来监控部署在CCE集群内的业务数据。
参数类型 描述 prom_id 否 String Prometheus实例id(prom_id与prom_type同时存在时,仅prom_id生效)。 prom_type 否 String Prometheus实例类型(暂时不支持VPC、KUBERNETES)。 枚举值: default
设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。 方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中或取消选中可
指标数据 基础规格:指标数据在数据库中最多保存7天。 专业规格:指标数据在数据库中最多保存30天。 指标总量 单租户总指标量不超过40W 小规格总指标量不超过10W 指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 维度 每个指标的维度最多为20个。
指标维度 通过ICAgent上报的虚机指标的指标维度 表1 通过ICAgent上报的虚机指标的指标维度 指标类别 指标维度 说明 网络指标 clusterId 集群ID。 hostID 主机ID。 nameSpace 集群的命名空间。 netDevice 网卡名称。 nodeIP
)。主机可以在ECS、BMS直接购买,也可以通过CCE间接购买。 安装ICAgent(必选) ICAgent是AOM的采集器,用于实时采集指标、日志和应用性能数据。对于在ECS控制台直接购买的主机,您需要手动安装ICAgent。对于通过CCE购买的主机,ICAgent会自动安装。