检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
事件巡检 事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。 功能说明 事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。 获取基础数据时间范围如下: 基于应用3小时内的历史数据,形
添加阈值 该功能对非洲-约翰内斯堡、拉美-墨西哥城一、拉美-墨西哥城二、拉美-圣保罗一和拉美-圣地亚哥区域生效。 通过阈值规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 AOM已对接消息通知服务(Simple Message
基础指标:node-exporter指标 介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Job名称 指标 指标含义 node-exporter node_filesystem_size_bytes
管理主机组 AOM作为华为云服务可观测性分析统一入口,自身并不具有日志服务功能,AOM 2.0控制台中“主机组管理”功能由云日志服务LTS提供。用户可在AOM 2.0控制台界面操作,也可登录LTS控制台界面操作。 需要先购买云日志服务的相关功能,才可以使用AOM 2.0控制台中“主机组管理”功能。
阈值告警最佳实践(旧版) 该功能对非洲-约翰内斯堡、拉美-墨西哥城一、拉美-墨西哥城二、拉美-圣保罗一和拉美-圣地亚哥区域生效。 告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。
更新策略组属性 功能说明 该接口用于更新策略组属性。 URI PUT /v1/{project_id}/pe/policy/config 参数说明请参见表1。 表1 参数说明 参数名称 是否必选 描述 project_id 是 项目ID 请求消息 请求消息头 请求消息头如表2所示。
第三方云厂商/IDC/华为云其它Region自建Prometheus对接到AOM Prometheus实例 背景信息 云上用户经常会遇到多云或者跨region采集自建Prometheus场景,典型场景如:将自建IDC或者第三方云厂商的自建Prometheus对接到AOM Prometheus实例。
概述 传统ITIL流程中面向基础设施资源的管理方式,易造成各运维服务之间数据割裂、信息不一致等问题。应用资源管理将所有资源对象与应用统一管理,为AOM和LTS、APM等运维服务提供准确、及时、一致的资源配置数据,并通过开放配置数据接口,辅助第三方系统运维场景建设。 注意事项 如需
查询策略组属性 功能说明 该接口用于查询策略组属性。 URI GET /v1/{project_id}/pe/policy/config 参数说明请参见表1。 表1 参数说明 参数名称 是否必选 描述 project_id 是 项目ID 请求消息 请求消息头 请求消息头如表2所示。
如何区分告警和事件? 告警和事件的相同点 在AOM中告警和事件都是指AOM自身,或AOS、ServiceStage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。 告警和事件的区别 告警是AOM自身,或AOS、ServiceStage、CCE等外部服务在异常情况或在可能
采集管理 ICAgent和UniAgent是同一个插件吗? 如何处理界面“ICAgent状态”为“离线”的问题? 在主机上手工安装ICAgent后提示安装成功,但采集器管理器界面上提示状态异常? ICAgent安装成功后,无法在界面上获取到ICAgent状态 ICAgent安装成
配置CCE集群指标管理 通过新增ServiceMonitor或PodMonitor的方式为应用配置可观测监控 Prometheus 版的采集规则,来监控部署在CCE集群内的应用的业务数据。 前提条件 服务已接入CCE类型Prometheus 监控并接入CCE集群,具体请参见Prometheus实例
常见使用问题 没有消息通知服务的访问权限? 资源运行异常怎么办? 如何设置全屏模式在线时长? 日志配额已达到90%或已满怎么办? 如何获取AK/SK? 如何查询服务不可用时间? AOM告警规则状态为什么显示“数据不足”? 正常状态的工作负载,AOM界面显示异常是什么原因? 如何创建委托apm_admin_trust
基础指标:IEF指标 介绍IEF服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。 表1 IEF服务监控指标 指标类别 分类 AOM呈现的指标 IEF上报的指标
如何区分告警和事件? 告警和事件的相同点 在AOM中告警和事件都是指AOM自身,或ServiceStage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。 告警和事件的区别 告警是AOM自身,或ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上
正常状态的工作负载,AOM界面显示异常是什么原因? 在AOM页面看到工作负载的状态显示异常,但是实际上在CCE页面看工作负载是正常的。 图1 查看工作负载状态 可能的原因如下: ICAgent的版本过低。 ICAgent当前需要用户主动升级的,但是过旧的ICAgent版本可能存在状态上报延迟导致显示异常的问题。
查询标签值 功能介绍 该接口用于查询带有指定标签的时间序列列表。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/aom/api/v1/label/{label_name}/values 表1 路径参数 参数 是否必选 参数类型 描述 label_name
ICAgent安装类常见问题 ICAgent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决? 答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。 ICAgent安装成功后,后续的心跳和注册都失败,代理机网络不通,如何解决?
ICAgent版本说明 表1 ICAgent版本说明 版本号 说明 5.12.135 解决CPU使用率为0的问题 解决CCE1.23版本集群containerd节点容器网络指标缺失问题 支持采集EulerOS 2.5系统的磁盘分区指标 5.12.133 容器的标准输出日志支持多行采集。
集群指标及其维度 集群指标由AOM通过主机指标汇聚,汇聚的集群指标不包含master节点的主机指标。 表1 集群指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_cluster_cpu_limit_core) 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core)