检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Management)常见应用场景的操作实践,为每个实践提供详细的方案描述和操作指导,帮助用户轻松使用AOM。 表1 AOM 最佳实践一览表 最佳实践 说明 建设完整指标体系,实现立体化监控 本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。 通过告警降噪清除告警风暴 本文档
(CCI)、云监控 (Cloud Eye)、分布式消息 (DMS)、弹性云服务器 (ECS)云服务数据的访问权限。该权限设置针对整个AOM 2.0服务生效。 前提条件 用户已被授予“AOMFullAccessPolicy ”、"iam:agencies:createAgency"和"ia
获取Web&H5应用的指标、链路追踪和日志信息。具体操作请参见: 接入日志(LTS) 接入调用链(APM) Android APP 获取Android应用的指标、链路追踪和日志信息。具体操作请参见:接入日志(LTS)。 IOS APP 获取IOS应用的指标、链路追踪和日志信息。具体操作请参见:接入日志(LTS)
绑定环境的时候找不到资源? CMDB会强制校验环境和资源企业项目以及区域的一致性,如果不一致就不展示资源。 上述两种情况都一致还是看不到相应资源,则表示资源已经绑定环境,所以不显示在资源关联界面。用户设置关联状态为“已关联”,筛选后即可看到。 通过转移资源方式,可将一个资源绑定到多个环境,资源关联界面不支持重复绑定。
去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 下面以监控ELB业务层全量指标为例说明。 前提条件 已创建告警行动规则。 步骤一:创建分组规则 创建一个分组规则,当产生AOM的紧急、重要告警时,触发“Monitor_host”行动规则,且告警按照告警源合并分组。
重启CCE工作负载 使用重启CCE工作负载卡片可以创建任务重启一个或多个CCE工作负载。 只支持对有状态负载和无状态负载进行重启,其余类型负载不支持。 创建重启CCE工作负载任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在
设置采集普罗指标的目标端IP地址和端口号,例如:10.0.0.1:3306。 指标采集间隔(秒) 指标采集的周期,单位为秒(s),默认为60s,可选择10、30和60。 指标采集超时时间(秒) 执行指标采集任务的超时时间,单位为秒(s),默认为60s,可选择10、30和60。 说明: 超时时间必须小于或等于采集周期。
基础指标:IEF指标 介绍IEF服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。 表1 IEF服务监控指标 指标类别 分类 AOM呈现的指标 IEF上报的指标
AOM提供基础版和按需版两种计费方式,AOM默认为您开通基础版,可单击“切换版本”进行切换操作。您需要注意的是,AOM每24小时仅支持一次从按需版退回到基础版本的操作,退回基础版本后资源使用超出基础版本配额限制的,将进行数据清理,请确认并了解风险。 登录AOM控制台,进入“总览>监控概览”,单击顶部“切换版本”。
ICAgent是AOM的采集器,用于实时采集指标、日志和应用性能数据。对于在ECS控制台直接购买的主机,您需要手动安装ICAgent。对于通过CCE购买的主机,ICAgent会自动安装。 配置应用发现规则(可选) 将运行在主机上的应用接入AOM,以便能在AOM界面监控。满足内置应用发现规则的应用,安装
查询时序数据 场景描述 本章以查询一个节点的CPU使用率时序数据为例。 涉及的基本信息 查询时序数据前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 因指标格
200VM,指标存储时长1年 CCI实例监控 指标存储7天 500实例,指标存储时长1年 1000实例,指标存储时长1年 秒级监控指标数量 首月免费10个 无 2000个 自定义指标 10个 100个 500个 查询指标数据API调用 50万次/月 100万次/月 500万次/月 事件和告警总条数 5万条/月,存储时长7天
aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 相关链接 《IAM产品介绍》 创建用户并授权使用AOM 策略支持的授权项
入Prometheus监控,通过Grafana大盘监控主机和Kubernetes集群的众多性能指标。 通过CCE的kube-prometheus-stack插件、自建K8s集群、ServiceMonitor、PodMonitor等多种方式采集上报指标,监控部署在CCE集群内的业务数据。
等多种方式通知客户当前系统存在的问题。 应用发现最佳实践 应用发现是指AOM通过配置的规则发现和收集主机上部署的应用和关联的指标。可在“应用监控”界面和“监控概览”界面查看发现的应用和应用对应的指标数据。
不变 日志索引流量 日志存储空间 监控中心 主机监控 按需计费 基础指标免费,自定义指标收费,按照指标上报量进行计费。 CCI实例监控 按需计费 秒级监控指标数量 按需计费 自定义指标 按需计费 查询指标数据API调用 按需计费 免费 事件和告警总条数 按需计费 免费 指标存储量
访问凭证 自动化运维需要访问凭证授权访问OBS,用来获取OBS中的文件包。每个用户只能创建一个凭证。 新建凭证 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“设置 > 访问凭证”,进入访问凭证页面。 单击“同意授权”。
志数据满足设置的告警条件,产生日志告警。 告警规则分为指标告警规则、事件告警规则、日志告警规则以及应用性能监控告警。通常情况下,通过指标、日志和应用性能监控告警规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件告警规则,简化告警通知,快
主机ICAgent功能异常,请联系技术人员处理。 可能原因二:AOM不支持监控当前资源类型 修复建议:请检查您的资源是否为AOM监控的类型,AOM当前支持监控的资源类型有:主机、K8s容器、用户进程(AOM不监控主机的系统进程)。 可能原因三:资源被删除或被停止 修复建议: 在ECS界面检查主机是否已被重启、关机或删除。
智能运维,提供智能阈值机制,基于机器学习动态阈值告警,提升监控效率。 端侧分析,支持移动APP和Browser性能指标分析和崩溃分析等,实现应用全端掌控。 事务洞察,支持自动发现事务性能问题,智能筛选,完成根因探究。 中间件监控,无需额外安装其他插件,即可在AOM界面监控关系型数据库、分布式缓存服务等中间件的运行状态及各种指标。