检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
运维通道的能力,提供批量脚本执行、文件分发、云服务变更等原子操作功能,支持自定义编排原子操作并组装成作业和标准化运维流程。自动化运维将日常运维操作沉淀并发布成服务,实现日常变更的标准化、自动化、无差异化运维,将运维工作从日常重复繁杂的应用变更操作中解脱出来,提升运维操作的质量和效率,帮助企业运维转型和运维价值提升。
Management)常见应用场景的操作实践,为每个实践提供详细的方案描述和操作指导,帮助用户轻松使用AOM。 表1 AOM 最佳实践一览表 最佳实践 说明 建设完整指标体系,实现立体化监控 本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。 通过告警降噪清除告警风暴
以将维度理解为这些特征的类别。 主机 AOM的每一台主机对应一台虚拟机或物理机。主机可以是您自己的虚拟机或物理机,也可以是您通过华为云购买的虚拟机(例如:弹性云服务器,简称ECS)或物理机(例如:裸金属服务器,简称BMS)。只要主机的操作系统满足AOM支持的操作系统,且主机已安装
析决策、智能化的诉求,同时,在云端提供统一的设备/应用监控、日志采集等运维能力,为企业提供完整的边缘和云协同的一体化服务的边缘计算解决方案。 AOM提供对IEF资源的运维能力,无需额外安装其他插件,通过AOM您可监控IEF的资源(例如:边缘节点、应用、函数),同时在AOM还可以查看IEF资源的日志和告警。
下面以关键词统计为例,创建统计规则: 登录AOM控制台,在左侧导航栏中选择“日志 > 统计规则”。 单击右上角的“创建统计规则”,选择规则类型,设置规则名称、关键词,选择已创建的日志桶,单击“确认”,如下图所示。 统计规则以日志桶为单位, AOM会周期统计关键词在日志桶的日志文件中出现的条数,并生成日志指标。 图1
获取Prometheus实例的服务地址 使用Remote Read地址和Remote Write地址,将自建Prometheus的监控数据存储到AOM的Prometheus实例中,实现远程存储。 预聚合 通过配置预聚合规则将计算过程提前到写入端,可减少查询端资源占用,尤其在大规模集群和复杂业务场景下可以有
App列表 APM Agent会周期性采集一些App监控的性能指标数据,用来衡量Android端、iOS端的总体健康状况。 登录AOM 2.0控制台。 在左侧导航栏选择“App监控 > App列表”。 登录APM控制台。 在左侧导航栏选择“App监控 > App列表”。 App列表
过一个接入配置来采集多台主机上的日志,您可以将这些主机加入到同一个主机组,并将该主机组关联至对应的接入配置中,方便您对多台主机日志进行采集。 登录AOM 2.0控制台。 在左侧导航栏选择“设置 > 采集设置 > 主机组管理”。 登录LTS控制台。 在左侧导航栏选择“主机管理 > 主机组”。
资源消耗”。 在页面左上角选择需要统计的Prometheus实例。 在页面右上角设置该Prometheus实例上报的资源信息的统计条件。 设置时间范围,可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。
事件根因分析:提供基于应用性能管理APM平台的调用链追踪根因定位技术。可以从应用服务和流量Top N接口的指标、调用链维度,全局分析问题,快速诊断并定位故障根因。 故障传播链分析:提供基于应用性能管理APM平台的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展
多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。
方式是先扣除已购买的套餐包内的额度,之后的超出部分按照按需付费的方式进行结算。 按需版切换至基础版 当您不再需要按需版时,您可在AOM总览界面中单击“切换版本”回到基础版,每24小时仅支持一次回退到基础版操作。切换到基础版的次日凌晨起,AOM将会删除超出基础版的配额。删除动作不可恢复,所以请您慎重操作。
心数,假设您的集群中包含3个节点,则采样点分布于3条不同的时间线上。若每个节点的采样周期为15s,则一分钟的时间范围内,上报的采样点数据的总条数为:3*(60/15)=12(条),如下图所示: 会产生自定义指标上报的场景:接入Prometheus后,为什么会产生额外费用?。 0~150(百万条):0
AOM提供告警降噪功能,您可以在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 告警降噪功能分为分组、去重、抑制、静默四部分。 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 分组、抑制、静默需手动创建规则,具体的创建方式
组件列表展示组件不同的指标监控项。AOM支持查看组件的指标监控项。 通过全局拓扑图查看应用间调用关系 通过拓扑图可以自动梳理服务之间的调用关系,同时也可以从全局视角查看服务之间调用是否正常,帮助用户快速定位问题。 通过调用链查看微服务间调用关系 在企业微服务之间调用复杂的场景下,Agent会抽样一些请求,拦截对应请求
了解 AOM是云上应用的一站式立体化运维管理平台。 产品介绍 什么是AOM 应用场景 与其他服务的关系 约束与限制 指标总览 基本概念 03 入门 快速了解AOM服务在不同应用场景中的操作流程。 快速入门 监控云容器引擎 CCE的指标 05 实践 提供典型场景的最佳实践操作指导您更好地使用AOM。
告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段,可采用系统默认字段,也可根据需要自定义字段。 { "starts_at"
误率突增的原因。 图4 TopN接口错误率突增 应用服务整体流量不均:基于应用下所有实例的流量数据,展示应用下最大流量和最小流量实例的流量和时延数据,并展示应用下流量Top5的接口在最大流量和最小流量实例上的分布,快速定位受影响接口。单击所展示的接口,可详细追踪接口近期的调用情况。
策略名称必须为以0~9、a~z、A~Z、下划线(_)或中划线(-)组成的1~64位字符串,且必须以字母开头。 同一伸缩组下的策略,相同指标(metric_name)的metric_operation为“>”的metric_threshold值必须比metric_operation为“<”的metric_threshold值大。
e_megabytes) 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(MB) 可用虚拟内存(aom_node_virtual_memory_free_megabytes) 该指标用于统计测量对象上的尚未被使用的虚拟内存。 ≥0 兆字节(MB) 显存容量(aom