检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 功能入口 登录AOM 2.0控制台。 在菜单栏选择“监控中心”,进入“监控中心”界面。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角设置应用的时间范围。可通过如下两种方式设置时间范围: 方式一:
定义阈值 单击“添加”,完成创建。如下图所示,创建了多个单条阈值规则,一个资源对应一个规则,可使用独立的规则对某个资源进行监控。 如下图所示,对于一个单条阈值规则,其监控对象为某个主机,当主机的CPU使用率超过85%时,在告警界面产生阈值告警,可在左侧导航栏中选择“告警> 告警列表”,
获取快应用小程序的指标、链路追踪和日志信息。具体操作请参见:接入日志(LTS)。 业务监控(基于日志) 支持创建日志指标规则,将上报到LTS的日志数据提取为指标来统一管理,便于后续在指标浏览、仪表盘界面实时监控。具体操作请参见:创建日志指标规则(新版)。 组件层接入 表2 组件层接入 卡片
功能介绍 日志升级 日志升级后,容器日志和虚机日志均接入AOM 2.0,历史虚机日志可登录AOM 1.0查看。 采集器升级 采集器升级后,进程发现能力增强,并且可自动适配指标浏览服务相关功能。 告警规则升级 告警规则升级后,告警规则相关数据从1.0平滑切换至2.0,并可自动适配AOM
功能介绍 日志升级 日志升级后,容器日志和虚机日志均接入AOM 2.0,历史虚机日志可登录AOM 1.0查看。 采集器升级 采集器升级后,进程发现能力增强,并且可自动适配指标浏览服务相关功能。 告警规则升级 告警规则升级后,告警规则相关数据从1.0平滑切换至2.0,并可自动适配AOM
修订记录 表1 版本说明列表 日期 修订记录 2023-09-30 新增以下章节: AOM与CES的云服务监控功能对比 安全 优化以下章节: 基础指标:容器指标 2023-09-15 删除“计费说明”章节。 2023-08-04 删除“基础指标-云服务指标”章节。 2023-06-30
但采集器管理器界面上提示状态异常? ICAgent安装成功后,无法在界面上获取到ICAgent状态 ICAgent安装成功后,AOM中无法监控到CPU内存使用率等信息 如何获取AK/SK? ICAgent安装类常见问题 如何创建终端节点? 如何启用NGINX stub_status模块
√ 获取资源列表 √ √ 查询节点拓扑关系 √ √ 查询操作记录 √ √ 资源监控常用操作与系统权限 表3列出了资源监控常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表3 资源监控常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess
使用抑制规则,您可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警。或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。 约束与限制 若在发送告警通知之前抑制条件对应的源告警已恢复正常,则抑制规则失效,抑制对象(被源告警抑制的告警)将正常发送告警通知。
如何通过创建委托获取AK/SK? 日志费用说明 在控制台查看不到日志怎么办? 如何处理界面“ICAgent状态”为“离线”的问题? 安装了ICAgent,但是监控不到主机是什么原因? 安装ICAgent过程中,系统提示“no crontab for root”是什么原因? AOM配置日志转储时无法选中obs桶是什么原因?
使用抑制规则,您可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警。或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。 注意事项 若在发送告警通知之前抑制条件对应的源告警已恢复正常,则抑制规则失效,抑制对象(被源告警抑制的告警)将正常发送告警通知。
请从下拉列表中选择,系统默认按选择全部事件处理。 触发方式 事件类告警的触发方式。 累计触发:某个监控周期内达到累计次数则触发告警,按照设置的频率发送对应的事件告警通知。 例如,设置事件名称为“数据卷扩容失败”,监控周期为“20分钟”,累计次数为“3”,频率为“每5分钟”,则表示20分钟内累计3次
需版退回到基础版本的操作,退回基础版本后资源使用超出基础版本配额限制的,将进行数据清理,请确认并了解风险。 登录AOM控制台,进入“总览>监控概览”,单击顶部“切换版本”。 选择版本,勾选提示信息,单击“立即切换”。
登录Grafana并获取Grafana视图的普罗语句。 登录AOM 2.0控制台。 在左侧导航栏中选择“ 指标浏览”。 从下拉列表选择需要监控的Prometheus实例。 单击“按普罗语句添加”,并输入1获取的Grafana视图的普罗语句。 选择指标后,在指标列表右上方单击。 在
aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 相关链接 《IAM产品介绍》 创建用户并授权使用AOM 策略支持的授权项
足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 告警规则分为阈值规则和事件类告警规则两种。通常情况下,通过阈值规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。
服务事件的筛选条件。从通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称中选择一个或多个作为事件的过滤条件。 触发策略 事件类告警的触发策略。 累计触发:某个监控周期内达到累计次数则触发告警行动规则。 立即触发:满足筛选条件立即产生告警。 图2 设置告警规则 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
process_cpu_seconds_total 进程CPU累计时长 process_max_fds 进程最大文件描述符 process_open_fds 进程当前打开的文件描述符 process_resident_memory_bytes 进程常驻内存集的大小 process_start_time_seconds
查询缓存,ETCD用来存储AOM的配置数据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
monitor_object_templates Array of strings 监控对象模板(创建告警时需要补齐里面的内容)。 monitor_objects Array of Map<String,String> objects 监控对象列表。键值对形式,键值为: “event_type”:通知类型