检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SDK概述 本文介绍了AOM服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 表1提供了AOM服务支持的SDK列表,您可以在GitHub仓库查看
据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
构建指标告警、事件告警、日志告警的统一告警体系,提供分组、抑制和静默等告警降噪策略,结合告警通知和订阅等功能,帮助用户从容应对海量告警风暴,快速检测和修复业务告警。 统一可视化 支持对多种数据源,在同一个仪表盘中统一监控与分析,并以折线图、数字图等形式多样化、可视化呈现,帮助用户快速监
跨云服务的分布式应用监控:对于同时使用了多种云服务的分布式应用,提供统一的运维平台,便于您对业务进行立体排查。 告警灵活通知:提供多种异常检测策略并支持丰富的异常告警触发方式及API。 图1 巡检与问题定界 立体化运维 您需全方位掌控系统的运行状态,并快速响应各类问题。 AOM提
处选择的指标。 指标的详细设置由统计周期、条件、检测规则、触发条件以及告警级别组成。指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3
aom_node_npu_temperature_centigrade NPU温度 该指标用于统计NPU的温度。 说明: 仅支持CCE类型主机的NPU指标采集。 - 摄氏度(℃) aom_node_memory_usage 物理内存使用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100
集群名称=aom-doc-test AND 工作负载名称=coredns 分组条件 指标数据按指定字段分组聚合,对聚合的结果进行运算。 不分组 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。 “平均值 > 10” 触发条件
选择待操作的仪表盘,在“仪表盘”页面右上角单击后的下拉箭头,开启仪表盘自动刷新开关。 轮播仪表盘 选择待操作的仪表盘,在“仪表盘”页面右上角单击。具体操作请参见设置全屏模式在线时长。 查询时间设置 选择待操作的仪表盘,在“仪表盘”页面右上角单击前面的下拉框,在下拉框可选择“近30分钟”、“近1小时”、“近6小时”
设置告警规则详情。 指标的详细设置由统计周期、条件、检测规则、触发条件以及告警级别组成。指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3
查看从当前时刻起,最新写入的日志。 日志中的exception记录了代码运行时出现的异常,在使用日志定位问题时,这些异常信息比较重要,关注度也比较高。在查看实时日志时,AOM会自动对日志中的异常关键词高亮显示(异常关键词严格区分大小写,只高亮显示exception和Excepti
预聚合 通过配置预聚合规则将计算过程提前到写入端,可减少查询端资源占用,尤其在大规模集群和复杂业务场景下可以有效的降低PromQL的复杂度,从而提高查询性能,解决用户配置以及查询慢的问题。 当前仅Prometheus for CCE 实例支持。 父主题: Prometheus监控简介
关系型数据库服务(Relational Database Service,简称RDS)是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。 当您开通了RDS后,无需额外安装其他插件,即可在AOM界面监控RDS的运行状态及各种指标。 分布式缓存服务 分布式缓存服务(Distributed
igrade node_temperature 节点温度 Atlas 500小站节点温度,由用户调用edgecore接口上报。 ≥0 摄氏度(℃) node_power node_power 节点功率 Atlas 500小站节点功率,由用户调用edgecore接口上报。 ≥0 瓦(W)
最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入下划线或中划线。 默认规则 根据普罗语句生成指标告警的检测规则。系统提供自定义输入和通过CCE模板填充两种输入方式: 自定义输入:已知指标的名称、IP等信息,且对普罗语句格式较了解时,在下拉列表中
属性列表(暂不使用,可不传)。 isDetect 是 String true、false 是否为规则预探测场景(预探测场景不会保存规则,仅用于规则下发之前对规则正确性的检测)。 isDefaultRule 是 String true、false 是否为默认规则。 priority 是 Integer 1~9999的整数,默认取值为9999
Service,简称DCS)是一款内存数据库服务,兼容了Redis、Memcached和内存数据网格三种内存数据库引擎,为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足高并发及数据快速访问的业务诉求。 当您开通了DCS后,无需额外安装其他插件,即可在AOM界面监控DCS的运行状态及各种指标。
线代表一个调用关系。调用次数越多,连线越粗。连线上的数据表示吞吐量和整体时延。吞吐量即所选时间的调用次数。拓扑使用Apdex对应用性能满意度进行量化,并使用不同颜色对不同区间Apdex的值进行标识,方便您快速发现问题,并进行定位。 图2 拓扑图 事务 现实生活中,事务即一次任务,
DCGM_FI_DEV_GPU_TEMP GPU温度 表示GPU温度。 >0 摄氏度(℃) DCGM_FI_DEV_POWER_USAGE GPU功率 表示功率。 >0 瓦(W) DCGM_FI_DEV_MEMORY_TEMP 内存温度 表示内存温度。 >0 摄氏度(℃) DCGM_FI_PROF_GR_ENGINE_ACTIVE