检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
机监控(磁盘)、主机监控(网络)、集群监控(CPU&内存)和集群监控(磁盘)等多种数据信息卡片,下面分别介绍各卡片内容及操作: 基础设施监控卡片 图1 基础设施监控 此卡片主要展示基础设施的指标数据。可通过选择集群,呈现某一个集群或者所有集群中的信息。如图选择所有集群,即该基础设施监控卡片呈现所有集群的如下信息:
0。 AOM 2.0与AOM 1.0的功能有哪些区别? AOM 2.0基于AOM 1.0原有功能,结合用户常用的应用监控,增加了多种指标和日志数据的采集与监控,并对监控结果可视化呈现。同时,通过自动化运维功能将日常运维操作服务化、自动化,减少运维人员重复性操作。详细的功能对比请参见AOM
指标。 不支持 支持 仪表盘 将不同图表展示到同一个屏幕上,通过多种图表形式展示资源的指标、日志和性能数据。 部分支持 只支持指标数据和系统性能数据的可视化监控,不支持日志数据的监控。 支持 告警管理 对服务设置事件条件或者对资源的指标设置阈值条件,当AOM自身或外部服务存在异常
支持邮件、短信、企业微信、钉钉、飞书、语音、welink、HTTP或HTTPS消息模板。 welink消息模板当前受限开放,如有需求可以通过提交工单,联系工程师为您开放此功能。 支持消息模板自定义。参考自定义消息模板内容。 约束与限制 您最多可创建100个“指标或事件”类型的消息模板
安装ICAgent(华为云主机) ICAgent用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于通过CCE间接购买的主机,ICAgent会自动安装,您不用安装ICAgent。 安装前提 在进行ICAgent安装前,需要先
在接口调用页签选择您想要查看的“实例名称”和“监控项”,可以查看该实例在对应采集器下的不同指标集下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。
创建告警行动规则 通过创建告警行动规则关联SMN主题与消息模板,当日志、资源或指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 前提条件 已创建一个主题,操作详见创建主题。 已设置主题策略,操作详见设置主题策略。 已为主题添加相关的订阅者,即通知的接
配置预聚合规则 预聚合(Recording Rule)可以对落地的指标数据做二次开发。某些查询可能需要在查询端进行大量的计算,导致查询端压力过大,通过配置预聚合规则将计算过程提前到写入端,可减少查询端资源占用,尤其在大规模集群和复杂业务场景下可以有效的降低PromQL的复杂度,从
在下拉列表中选择想要查看的“实例名称”和“监控项”,可以查看该实例在对应采集器下的不同指标集下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。
一键迁移 引导用户快速将仪表盘和告警规则数据从AOM 1.0一键迁移至AOM 2.0。 注意事项 告警规则一键迁移提供全量规则迁移和迁移结果查询的能力。 后台判断用户是否进行过迁移(迁移状态:未迁移,迁移中,迁移完成) 如果进行过迁移,显示迁移完成的弹框。 如果没有进行过迁移,显示一键迁移的弹框。
一键迁移 引导用户快速将仪表盘和告警规则数据从AOM 1.0一键迁移至AOM 2.0。 约束与限制 告警规则一键迁移提供全量规则迁移和迁移结果查询的能力。 后台判断用户是否进行过迁移(迁移状态:未迁移,迁移中,迁移完成) 如果进行过迁移,显示迁移完成的弹框。 如果没有进行过迁移,显示一键迁移的弹框。
24小时),单位为分钟或小时,每个图表最多可以查询最近一天的数据,当统计周期选择1~4分钟时,图表查询时间不能超过1小时。 若想添加多个图表,可单击继续添加。 说明: 单击跳转到日志流的可视化查看详情界面。 单击删除该直接添加的图表。 单击“预览”可查看可视化分析后的数据。必须要执行“预览”,否则将无法保存该告警规则。
在“实例名称”和“监控项”下拉框中选择实例与监控项,可以查看该实例在对应采集器下不同指标集的基础监控项指标数据,具体指标及说明请参见:基础监控。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小
自定义指标上报量 自定义指标上报量即采样点数量,采样点数量计算方式遵循开源Prometheus的数据模型。一条采样点数据包含指标名称、Label集合、采样时间时间戳及取值这几个部分,采样点以时间线的方式在逻辑上组织起来。例如,kube_node_status_allocatabl
目标存储路径 可通过${var_name}方式引用全局变量的字符串参数。 文件来源 回填所选的文件包版本中的文件来源,参见表1。 平台 文件包运行的平台,目前仅支持Linux。 脚本类型 操作类型选择“安装”,脚本类型为“安装脚本”。前置脚本对话框中展示前置脚本的内容信息,安装脚本
阈值规则:对资源的指标设置阈值条件,当指标数据满足阈值条件时,会产生阈值告警(阈值告警即由阈值规则触发而产生的告警);当没有指标数据上报时,会产生数据不足事件(数据不足事件即由阈值规则触发而产生的事件)。同时执行自定义的触发策略,当阈值规则的状态(正常、超限阈值、数据不足)发生变化时,会以邮件或
适用计费项 按照用户实际使用的自定义指标上报量、指标存储时长、数据转储量计费。 表1 计费项说明 计费项 计费说明 自定义指标上报量 自定义指标上报量即采样点数量,采样点数量计算方式遵循开源Prometheus的数据模型。一条采样点数据包含指标名称、Label集合、采样时间时间戳及取值这几
搜索同时包含start和unexpected的日志数据:start && unexpected。 搜索同时包含start和unexpected的日志数据:start AND unexpected 或者 start and unexpected。 搜索包含start或者unexpected的日志数据:start ||
加载指标数据,全面还原用户的体验感受,定位访问慢的原因。 定位应用性能瓶颈 业务痛点 随着业务不断发展,业务逻辑日益复杂,导致应用性能问题分析与定位日益艰难,给监控运维带来了巨大的挑战: 应用之间的依赖关系复杂,难以梳理。 调用链路长,排查和定位群体困难。 接口调用、数据库调用关系复杂,管理难度大。