检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务事件的筛选条件。从通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称中选择一个或多个作为事件的过滤条件。 触发策略 事件类告警的触发策略。 累计触发:某个监控周期内达到累计次数则触发告警行动规则。 立即触发:满足筛选条件立即产生告警。 图2 设置告警规则 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
查询缓存,ETCD用来存储AOM的配置数据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
monitor_object_templates Array of strings 监控对象模板(创建告警时需要补齐里面的内容)。 monitor_objects Array of Map<String,String> objects 监控对象列表。键值对形式,键值为: “event_type”:通知类型
M提供指令下发,如脚本下发和执行。它自身不提供数据采集能力,运维由不同的插件分工采集,插件按需安装、升级和卸载。后续逐步上线其它插件(如云监控和主机安全),统一规范管理。 AK/SK 访问密钥。通过提供租户级别的AK/SK来安装ICAgent,以便于采集日志数据。 ICAgent
击文本框,选择对应的统计规则及其关键词,即可自动输入。同时,统计规则创建成功后,AOM会对关键词进行统计并生成指标,您可在“指标监控”页面对其进行监控。 查看搜索结果。 通过柱状图查看统计数据 柱状图展示了满足2中已设查询条件的日志条数在时间上的分布。横轴显示时间,并对横轴进行3
一站式运维平台 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 AOM有哪些优势
主机的操作系统满足AOM支持的操作系统(AOM支持的操作系统详见操作系统使用限制)且主机已安装ICAgent,即可将主机接入到AOM中进行监控。 ICAgent ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。安装ICAgent是使用AOM的前提,否则将无法正常使用AOM。
子应用下的创建的组件数量最多不超过50。 环境数量 组件下可创建的环境数量最多不超过20。 资源数量 单个环境管理的同类实例资源数量最多不超过2000。 资源监控使用限制 表2 资源监控使用限制 分类 限制项 说明 仪表盘 仪表盘数量 1个区域中最多可创建1000个仪表盘。 仪表盘中的图表数量 1个仪表盘中最多可添加50个图表。
在“采集任务”页签中,您可以对该中间件或自定义插件已创建的采集任务进行管理。具体操作如下: 您还可以在左侧导航栏选择“Prometheus监控 > 实例列表”,进入目标Prometheus实例详情页面查看或删除该Prometheus实例相关的中间件采集任务。 表1 相关操作 操作
用于DNS解析域名,下载UniAgent包时解析OBS地址、解析UniAgent服务端地址。 1 允许 IPv4 TCP 443 100.125.0.0/16 采集监控数据上报到AOM服务端。 父主题: 采集管理
告警降噪等场景,为告警标识性属性。告警标注主要应用于告警通知、消息模板等场景,为告警非标识性属性。 告警标签特征 告警标签可应用于告警降噪模块的分组规则、抑制规则和静默规则,告警管理系统根据标签属性进行告警管理和通知。 告警标签为key:value键值对格式,支持用户自定义。key
详细说明请参见基础指标-虚机指标。 如需通过Prometheus采集CCE集群指标数据上报到AOM,具体操作请参见使用Prometheus监控CCE集群指标。 云容器实例 CCI 云容器实例CCI服务默认自动将指标上报到AOM,其指标数据开箱即用。用户无需手动接入。 单击“云容器实例
值这几个部分,采样点以时间线的方式在逻辑上组织起来。例如,kube_node_status_allocatable_cpu_cores指标监控了Kubernetes集群中每个节点的可分配CPU核心数,假设您的集群中包含3个节点,则采样点分布于3条不同的时间线上。若每个节点的采样周
参数 是否必选 参数类型 描述 alarm_notifications 否 AlarmNotification object 告警规则通知模块。 alarm_rule_description 否 String 告警规则描述。 alarm_rule_enable 否 Boolean
去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段
基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无
cn-north-4.myhuaweicloud.com”。 resource-path:资源路径,即API访问路径。从具体API的URI模块获取,例如“获取用户Token”API的resource-path为“/v3/auth/tokens”。 query-string:查询参
- (可用物理内存 + 可用虚拟内存)) / (物理内存容量 + 虚拟内存总量)。目前创建的虚机默认虚拟内存为0,在未配置虚拟内存的情况下,监控页面内存使用率,虚拟内存使用率相同。 物理磁盘已使用总容量和物理磁盘总容量指标仅统计本地磁盘分区的文件系统类型,不统计主机通过网络形式挂载
容器可以使用的虚拟内存限制 container_start_time_seconds 容器已经运行的时间 container_last_seen 最近一次监控采集器感知到容器的时间 container_accelerator_memory_used_bytes 容器正在使用的GPU加速卡内存量