检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
况时,发现系统上报的告警数量过大,重复性告警过多,需要从众多告警中快速及时发现故障,全面掌握应用。 解决方案 AOM通过设置告警规则,实时监控环境中主机、组件等资源使用情况。当产品自身或外部服务存在异常情况时,立即触发告警。并提供告警降噪功能,支持发送告警通知前按告警降噪规则对告
管理告警规则 告警规则创建完成后,可在“规则列表”中查看告警规则的规则名称、类型、状态、监控对象等信息,并可根据需要修改、启动或停止告警规则。 管理指标或事件告警规则 登录AOM 2.0控制台。 在左侧导航栏中选择“告警管理 > 告警规则”,默认显示“指标或事件”页签。 在规则列
业务监控(BETA) 主要提供创建日志指标规则功能。 基础设施监控 主要提供工作负载监控、集群监控、主机监控、进程监控和云服务监控的功能。 工作负载监控 工作负载监控的对象通过CCE部署的工作负载,通过工作负载监控可及时了解工作负载的资源使用、状态和告警等信息。 集群监控 集群
应用资源管理 表1 应用资源管理基本概念 术语 说明 应用资源管理 简称CMDB,在AOM2.0中管理应用与云资源的关系,并为AOM的监控、自动化运维、APM服务提供统一、及时的资源环境管理服务。 应用TOPO结构 资源与应用关系的层次结构。CMDB遵循“应用 + 子应用(可选)+
创建日志指标规则 基础设施监控 AOM提供基础设施监控功能,可以对工作负载、集群、主机、进程与云服务进行监控。通过工作负载监控您可以及时了解工作负载的资源使用、状态和告警等信息;提供集群监控可实时监控集群的多项基础监控指标和相关的告警、事件数据;通过主机监控您可以及时了解主机的资源
如果在全局页面已选择企业项目,则此处灰化不可选。 绑定到应用 选择CMDB中创建的应用绑定。 说明: 如果开启了“应用监控”功能,才会出现该配置项。开启“应用监控”功能的详细操作请参见菜单开关。 分组类型 分组类型包含“已有分组”和“新建分组”两种类型。 已有分组:从下拉列表中选择已有的仪表盘分组。
使用AOM可以实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 常用操作 接入中心 告警管理 仪表盘 指标浏览 日志分析 Prometheus监控 基础设施监控 应用监控 常见问题 了解更多常见问题、案例和解决方案
发布成服务 作业的执行方案可以发布生成服务卡片,执行方案发布后在服务场景中可以查看。作业的执行方案发布成服务,需要有cms:publish:update权限或cms:toolmarket:update权限。服务卡片的相关操作参见服务场景。 在左侧导航栏中选择“作业管理”,在作业方
护敏感信息。 容器监控 在CCE容器监控场景下,AOM的采集器(ICAgent)必须以特权容器的方式运行,请合理的评估特权容器的安全风险,谨慎识别您的容器业务场景。如:节点对外提供的业务属于逻辑多租的共享容器方式,建议采用开源Prometheus等工具进行监控,避免使用AOM的采集器监控您的业务。
护敏感信息。 容器监控 在CCE容器监控场景下,AOM的采集器(ICAgent)必须以特权容器的方式运行,请合理的评估特权容器的安全风险,谨慎识别您的容器业务场景。如:节点对外提供的业务属于逻辑多租的共享容器方式,建议采用开源Prometheus等工具进行监控,避免使用AOM的采集器监控您的业务。
接入中心 接入中心总览 接入管理 监控JAVA应用 监控Node.js应用
图。 折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多为连续时间间隔)上的变化情况,用于直观分析数据变化趋势。当需要监控一段时间内一个或多个资源的指标数据趋势时,请使用此类型图表。 使用折线图可对不同资源的同一指标进行对比,如下图所示,在同一个图表中展示了不同主机的CPU使用率。
入Prometheus监控,通过Grafana大盘监控主机和Kubernetes集群的众多性能指标。 通过CCE的kube-prometheus-stack插件、自建K8s集群、ServiceMonitor、PodMonitor等多种方式采集上报指标,监控部署在CCE集群内的业务数据。
AOM支持自定义策略授权项如下所示: 告警:包括所有告警相关接口对应的授权项,例如查询事件告警信息接口。 监控:包括所有监控相关接口对应的授权项,例如查询指标接口。 Prometheus监控:包括所有Prometheus监控相关接口对应的授权项,例如区间数据查询接口。 日志:包括所有日志相关接口对应的授权项,例如查询日志接口。
API 告警 监控 prometheus监控 日志 Prometheus实例 配置管理 UniAgent管理 应用资源管理(aom2.0接口) 自动化运维(aom2.0接口)
日志存储空间 500MB 400GB 1TB 主机监控 指标存储7天 100VM,指标存储时长1年 200VM,指标存储时长1年 CCI实例监控 指标存储7天 500实例,指标存储时长1年 1000实例,指标存储时长1年 秒级监控指标数量 首月免费10个 无 2000个 自定义指标
志数据满足设置的告警条件,产生日志告警。 告警规则分为指标告警规则、事件告警规则、日志告警规则以及应用性能监控告警。通常情况下,通过指标、日志和应用性能监控告警规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件告警规则,简化告警通知,快
统一由LTS提供并上报话单,AOM不会双算。 不变 日志索引流量 日志存储空间 监控中心 主机监控 按需计费 基础指标免费,自定义指标收费,按照指标上报量进行计费。 CCI实例监控 按需计费 秒级监控指标数量 按需计费 自定义指标 按需计费 查询指标数据API调用 按需计费 免费
主机ICAgent功能异常,请联系技术人员处理。 可能原因二:AOM不支持监控当前资源类型 修复建议:请检查您的资源是否为AOM监控的类型,AOM当前支持监控的资源类型有:主机、K8s容器、用户进程(AOM不监控主机的系统进程)。 可能原因三:资源被删除或被停止 修复建议: 在ECS界面检查主机是否已被重启、关机或删除。
连续多少个周期不满足告警条件,恢复告警。默认只监控一个周期,最多可监控30个连续周期指标数据。 例如,设置连续周期为“2”,则表示连续2个周期不满足告警条件,恢复告警。 无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。 默认只监控一个周期,最多可监控5个连续周期指标数据。