检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开通智能洞察 AOM智能洞察引擎持续监控您的应用和资源,通过历史数据和问题特征发现问题,并针对每个问题会给出相应的根因分析和建议。 功能介绍 事件巡检:提供基于应用性能管理APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常。
您可通过接入管理生成的认证凭据access_code,将原生Prometheus的指标通过remote write上报到AOM服务端,参见将Prometheus的数据上报到AOM,实现时序数据的长期存储;也可以通过access_code作为认证凭据来查询AOM中的数据,参见通过gr
接入LTS的规则。 前提条件 已创建需要映射的日志组和日志流。创建方法请参见:创建日志组和日志流,也可以在添加接入规则页面直接创建。 已有集群、命名空间和工作负载,详情请参见:CCE用户指南。 约束与限制 配置的日志接入LTS规则可能会影响LTS中的日志数据,产生额外的费用,请谨慎操作。
odMonitor的方式暴露采集目标。 预聚合 Prometheus监控的Recording Rule能力。可以通过PromQL将原始数据加工成新的指标,提升查询效率。 时间序列 由指标名和标签组成。属于同一指标和同一组标签维度的带时间戳的流。 远程存储 自研的时序数据存储组件。
术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
Prometheus实例的名称,进入实例的详情页面。 在左侧导航栏中单击“仪表盘”,即可查看当前Prometheus实例下系统预置的所有仪表盘模板。 根据需要,单击对应仪表盘模板名称,即可监控当前Prometheus实例的指标数据。 例如,需要监控主机的磁盘分区信息,则单击“di
择待监控的资源,单击“下一步”。 资源树上最多可选择100个资源。 当选择多个资源时,创建操作完成后,会创建多个单条阈值规则,每个资源对应一个单条阈值规则。规则命名方式为:您在“阈值名称”文本框中设置的阈值规则名称加上0至9的序号(序号和资源选择时的先后顺序有关,先选择的资源序号越小,后选择的资源序号越大)。
对用户所有的各类云服务进行统一管理。可全局查看所有的云服务资源对象与应用的关联关系,包括未绑定应用的云资源,便于用户对资源进行分析和管理。 环境标签 根据实际的使用场景,为已创建的应用环境添加标签,便于用户快速过滤和查找相同属性的应用环境。 企业项目 华为云企业项目,一个项目可以包含一个或者多个应用。
告警规则”。 选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 迁移操作无法恢复,请谨慎操作。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。
告警规则”。 选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 父主题: 迁移AOM
单击右上角的,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。 单击容器名称,可查看容器的相关资源、告警、事件和仪表盘信息。在“相关资源”页签下,默认展示该容器所在的容器组。可按节点和节点名称、工作负载和负载名称、容器组和容器组名称查看当前容器相关的节点、工作负载、容器组信息。
、样本个数。 说明: 样本个数为指标数据点的计数。 统计周期 指标数据按照所设置的统计周期进行聚合。 统计周期与统计时段相关联,选择的时段不同,统计周期的显示也会相应变化。 统计时段 指标数据按照所设置的时间范围进行聚合。设置时间范围的方式包括:近30分钟、近一小时、近6小时、近一天、近一周、自定义时间段。
查询时序数据 场景描述 本章以查询一个节点的CPU使用率时序数据为例。 涉及的基本信息 查询时序数据前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 因指标格式
若该日志之前已打印的日志条数 ≥100,该日志之后已打印的日志条数 ≥99,则该日志之前的100条和之后的99条日志会被作为上下文显示。 若该日志之前已打印的日志条数 <100(例如,已打印90条日志),该日志之后已打印的日志条数 <99(例如,已打印80条日志),则该日志之前的90条和之后的80条日志会被作为上下文显示。
云服务”和“Prometheus for 多账号聚合”的实例上报的基础指标和自定义指标数量。 指标上报量统计周期为1小时,如果设置的查询时间范围小于1小时,可能会导致指标累计上报量查询结果为0。 “资源消耗”页面展示的指标上报量可能与实际指标上报量存在一定误差。 查看Prometheus实例指标上报量 登录AOM
通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规则总计不能超过1000条,即创建的告警规则数量不能超过1000条。如果系统中的告警规则数量已达到上限,请删除不需要的告警规则后重新创建。 父主题: 告警规则(新版)
从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则。 图3 设置告警降噪方式 单击“立即创建”,完成创建。创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。 在展开的列表中,只要某个主机的指标数据满足设
r”。 单击“新增PodMonitor”,在弹出的对话框中输入PodMonitor的相关参数信息,然后单击“确定”。 采集规则YAML配置样例如下,样例的指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标: apiVersion: monitoring
搜索日志流中的日志 当需要通过日志来分析和定位问题时,使用日志搜索功能可帮您快速在海量日志中查询到所需的日志,还可通过分析日志的来源信息和上下文原始数据快速定位问题。 约束与限制 如需使用“日志流”功能,需提前在“菜单开关”中开启日志流的开关,详细操作请参见菜单开关。 使用日志分析(新版)功能的区域没有日志流功能。