检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 应用场景 某电商运维人员在定位分析应用、资源及业务的实时运行状况时,发现系统上报的告警数量过大,重复性告警过多,无法及时从众多告警中及时发现故障,全面掌握应用情况。 解决方案 下面以监控ELB业务层全量指标为例说明,如何使用分组规则清除告警风暴。
计费概述 通过阅读本文,您可以快速了解应用运维管理AOM 2.0的计费模式、计费项、欠费等主要计费信息。如果已知资源使用情况,需了解价格预算和计费方式选择,可前往价格计算器预算价格。 计费模式 AOM当前提供按需计费模式,按需计费是一种后付费模式,即先使用再付费,按照云服务器实际
Prometheus监控 Prometheus监控概述 管理Prometheus实例 管理Prometheus实例指标数据 使用Prometheus监控CCE集群指标 配置多账号聚合实现指标统一监控 配置CCE集群监控采集指标规则 配置预聚合规则提升指标查询效率 配置数据多写实现监控指标转储到自建Prometheus
同一组织下多个成员账号均已接入云服务指标。 约束与限制 只有组织管理员或委托管理员账号才可以创建多账号聚合Prometheus实例,并执行接入账号的操作。设置委托管理员相关操作请参见添加、查看和取消委托管理员。 以委托管理员登录,如果无法执行接入账号操作,请参考给IAM用户授权为委托管理员授予以下权限: organ
CI服务默认自动将指标上报到AOM,其指标数据开箱即用。 自建K8S集群 K8S(Kubernetes)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序,提升应用程序的可靠性和扩展性。具体操作请参见:自建K8S集群日志接入(LTS)。 配置弹性云服务器 ECS接入AOM
兆字节(MB) 文件系统容量(aom_container_filesystem_capacity_megabytes) 该指标用于统计测量对象文件系统的容量。仅支持1.11及其更高版本的kubernetes集群中驱动模式为devicemapper的容器。 ≥0 兆字节(MB) 文件系统使用率(
创建告警行动规则 前提条件 已创建一个主题,操作详见创建主题。 已设置主题策略,操作详见设置主题策略。 已为主题添加相关的订阅者,即通知的接收人(例如:邮件或短信),操作详见订阅主题。 注意事项 您最多可创建1000个告警行动规则,如果告警行动规则数量已达上限1000时,请删除不需要的行动规则。
在页面左侧导航栏单击任意一个功能名称,如“仪表盘”,可进入该功能的操作界面。 方式二 登录华为云管理控制台。 在左上角单击,在下拉列表中选择操作区域。 单击左侧,选择“管理与监管> 应用运维管理 AOM ”,进入AOM 2.0服务页面。 如果您通过登录AOM华为云官网直接进入AOM 1
选择“邮件”方式发送通知时,可单击“预览”查看设置的邮件消息模板效果。在预览界面,可根据需要修改消息主题。 表1 默认消息模板变量说明 变量名称 变量说明 变量定义 账号 登录管理控制台的账号。 ${domain_name} 通知类型 创建通知规则时选择的类型:告警或事件 ${event_type} 事件级别 创建通
更加安全、可靠的方式将监控数据上报到自建Prometheus中。 前提条件 服务已接入可观测Prometheus 监控。具体操作,请参见:管理Prometheus实例。 约束与限制 目前仅default类型、CCE类型、云服务类型、ECS类型、通用实例类型的Prometheus实例支持数据多写功能。
分钟内组件CPU&内存使用率的值。 趋势图上方的值为所选组件下监控的最新时间点CPU&内存使用率的值。 在卡片左下角通过勾选“隐藏系统组件”可隐藏系统组件。 集群监控(磁盘)卡片 图5 集群监控(磁盘) 此卡片主要展示了3种信息: 统计最新时间前1分钟内的集群的磁盘使用率在TOP5的集群信息。
添加自定义标签字段 添加自定义标签字功能目前仅在华东-上海一开放。 通过添加自定义标签,用户可以在日志页面上查看到自定义标签,如果将aom日志接入lts后,可以通过该自定义标签关键字进行日志搜索。 编辑yaml:通过在工作负载的yaml中spec:template:metadat
=> 请联系技术支持工程师。 若回显信息不为“404”,则说明端口未连通 => 请联系网络管理开放端口后,重新安装ICAgent。如果仍未安装成功,请联系技术支持工程师。 父主题: 采集管理
查看组件异常日志 异常监控项是对应用的异常日志进行监控。例如java的日志异常监控,一旦用户采用log系统打印日志,就会被采集上来。具体的异常采集类型会根据不同的采集器类型有变化。 查看组件异常日志 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。
mote read接口读取AOM Prometheus实例的数据。 前提条件 服务已接入可观测Prometheus 监控。具体操作请参见:管理Prometheus实例。 配置Remote Read地址 推荐配置自建Prometheus的prometheus.yml。具体操作如下:
两者有如下的区别和关系: 表1 两类授权的区别 名称 核心关系 涉及的权限 授权方式 适用场景 角色与策略授权 用户-权限-授权范围 系统角色 系统策略 自定义策略 为主体授予角色或策略 核心关系为“用户-权限-授权范围”,每个用户根据所需权限和所需授权范围进行授权,无法直接给用户
nual/mstop.sh 登录AOM控制台的“采集管理”界面,查看ICAgent状态是否可以显示。 ICAgent状态正常显示 => 结束。 ICAgent状态仍然不显示 => 请联系技术支持工程师处理。 父主题: 采集管理
_bytes 挂载的文件系统占用空间 node_filesystem_readonly 只读挂载的文件系统 node_filesystem_free_bytes 挂载的文件系统剩余空间 node_filesystem_avail_bytes 挂载的文件系统可用空间 node_cpu_seconds_total
查询监控数据(即将下线) 功能介绍 该接口用于查询指定时间范围内指标的监控数据,可以通过参数指定需要查询的数据维度,数据周期等。 URI POST /v1/{project_id}/ams/metricdata?fillValue=xx 替换接口请参考查询监控数据。 参数说明请参见表1。
获取应用接口发生调用时产生的调用链数据,然后根据应用近7天的调用链数据来训练调用链模型。默认每14天后台自动更新模型,并将模型保存在后台数据库中。 在线推理阶段:当用户单击事件卡片,进入到根因分析页面时,会触发根因分析模型的在线推理任务,在线推理任务会基于上一步离线训练完的调用链