检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AOM仪表盘监控概述 仪表盘是AOM针对指标或日志数据提供的实时数据分析大盘。您可以创建针对指标或日志的仪表盘,其将监控数据以图表形式在监控面板中直观呈现,助力监控与分析指标或日志数据。 功能介绍 表1 功能介绍 功能名称 说明 创建AOM仪表盘 通过仪表盘可将不同图表展示到同一
可观测大屏监控 运维可观测大屏是基于华为云Astro低代码平台开发的面向不同场景、角色的运维监控大屏,基于现网质量、服务韧性、评估优化等N大主题域,通过运维数据建模、可视化等数据分析能力,提供企业级运维沙盘。满足您全场景、自动化、可量化、可观测的一体化监控解决方案,为业务健康和稳定保驾护航。
高危命令说明 高危命令指影响系统或服务的正常运行,或造成系统特殊文件被恶意删除或修改命令。自动化运维服务涉及的高危命令请参见表1。 表1 高危命令说明 高危命令名称 高危命令校验规则 样例 导致风险 vi /etc/xxx.xx command \\s*(vi|vim)\\s+/
监控云容器引擎 CCE的指标 云容器引擎 CCE是一个企业级的集群托管服务,基于云服务器快速构建高可靠的容器集群,帮助您轻松创建和管理多样化的容器工作负载。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管
通过AOM监控工作负载 工作负载监控是针对CCE、CCI工作负载的监控,通过工作负载监控您可以及时了解工作负载的资源使用、状态和告警等信息,以便快速响应处理告警或事件信息,保证工作负载顺畅运行。工作负载分为五种类型:无状态负载 Deployment、有状态负载 StatefulSet、守护进程
集群指标及其维度 集群指标由AOM通过主机指标汇聚,汇聚的集群指标不包含master节点的主机指标。 表1 集群指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_cluster_cpu_limit_core) 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core)
安装ICAgent ICAgent用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于通过CCE间接购买的主机,ICAgent会自动安装。 AOM和LTS使用的ICAgent功能完全相同,ICAgent采集的指标数据均上报到
创建策略 功能说明 该接口用于创建策略。 策略名称必须为以0~9、a~z、A~Z、下划线(_)或中划线(-)组成的1~64位字符串,且必须以字母开头。 同一伸缩组下的策略,相同指标(metric_name)的metric_operation为“>”的metric_threshol
创建AOM告警静默规则 告警静默规则功能可以在指定时间段屏蔽告警通知。 约束与限制 您最多可创建100条静默规则,如果静默规则数量已达上限100时,请删除不需要的静默规则。 静默规则一旦创建完成,即刻生效。 创建告警静默规则 登录AOM 2.0控制台。 在左侧导航栏中选择“告警管理
应用资源管理概述 传统ITIL流程中面向基础设施资源的管理方式,易造成各运维服务之间数据割裂、信息不一致等问题。应用资源管理将所有资源对象与应用统一管理,为AOM和LTS、APM等运维服务提供准确、及时、一致的资源配置数据,并通过开放配置数据接口,辅助第三方系统运维场景建设。 约束与限制
通过AOM监控组件进程 组件即您部署的服务,包括容器和普通进程。组件列表展示了每个组件的名称、运行状态、所属应用等信息。AOM支持从组件下钻到实例,从实例下钻到进程。通过各层状态,您可完成对组件的立体监控。 约束与限制 每个组件最多可以创建五个标签。 标签键值长度不超过36个字符,标签值长度不超过43个字符。
创建AOM告警抑制规则 告警抑制规则功能可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警;或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。 约束与限制 如果在发送告警通知之前抑制条件对应的源告警已恢复正常,则
卸载ICAgent AOM支持如下卸载ICAgent方式,您可以按照需要进行选择: 通过界面卸载:此操作适用于正常安装ICAgent后需卸载的场景。 登录服务器卸载:此操作适用于未成功安装ICAgent需卸载重装的场景。 远程卸载:此操作适用于正常安装ICAgent后需远程卸载的场景。
快速管理应用 本章节介绍在“总览”页面的应用视角下,如何通过AOM快速管理应用,包括应用创建到发现、监控等操作。主要操作如下: 创建应用:通过CMDB创建应用和资源关系树,在应用所在主机安装采集器。 配置告警:创建指标告警规则,应用异常时发送通知。 配置告警行动规则:配置告警处理策略,如应用异常时自动重启。
创建AOM事件告警规则 通过事件告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 约束与限制 当服务的资源数据满足事件条件时,如需使用企业微信、钉钉、飞书、语音、welink、邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。
主机指标及其维度 表1 主机指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_node_cpu_limit_core) 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) CPU内核占用(aom_node_cpu_used_core) 该指标用于统计测量对象已经使用的CPU核个数。
容器组件指标及其维度 表1 容器指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_container_cpu_limit_core) 该指标用于统计测量对象限制的CPU核总量。 ≥1 核(Core) CPU内核占用(aom_container_cpu_used_core)
查看AOM告警或事件 “告警列表”页面提供告警和事件的查询和处理功能,便于您更快地发现、定位并恢复故障。 功能介绍 在告警列表中,有以下关键功能: 告警列表:支持按告警级别图形化查看告警信息。 高级过滤:支持在搜索框中按告警级别 、告警源、告警关键字等条件进行过滤,默认按照告警级别过滤。
创建AOM告警分组规则 告警分组规则功能可以从告警中筛选出满足条件的告警子集,然后按分组条件对告警子集分组,告警触发时同组告警会被汇聚在一起发送一条通知。 约束与限制 您最多可创建100条分组规则,如果分组规则数量已达上限100时,请删除不需要的分组规则。 当前部分区域“告警管理
创建AOM告警行动规则(告警通知规则) AOM提供告警行动规则(告警通知规则)定制功能,您可以通过创建告警行动规则(告警通知规则)关联SMN主题与消息模板,当日志、资源或指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 前提条件 已创建一个主题,操作详见创建主题。