检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
命令,可能会停机导致影响系统或服务的正常运行 reboot command \\s*reboot\\s* reboot 包含reboot命令,可能重启导致影响系统或服务的正常运行 halt command \\s*halt\\s* halt 包含halt命令,可能关机导致影响系统或服务的正常运行 Fork
Prometheus实例读写地址支持公网的局点 华为云用户应使用公网Remote Read地址和Remote Write地址访问AOM的Prometheus监控服务,内网地址仅供华为云内部云服务调用。 公网Remote Write地址仅部分局点支持,具体请参见表1。 表1 支持公网数据上报的说明 局点名称 Region名称
事件根因分析 事件根因分析服务提供异常事件快速根因定位分析的功能,根因分析基于事件巡检看护的服务历史数据,根据服务指标、调用链数据进行下钻分析,细粒度定位根因。 功能入口 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角设置应用的时间范围。可通过如下两种方式设置时间范围:
除对应的成员账号。 接入云服务:从云服务下拉列表中选择需要监控的一个或多个云服务。 数据存储:组织内子账号指标数据接入Prometheus For聚合实例后,子账号保留数据。系统默认不选择。 添加云服务支持的相关指标:单击“新增指标”,依次为接入的云服务添加相关指标。 图1 账号接入界面
Stage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。 告警和事件的区别 告警是AOM自身,或ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
基础指标:IEF指标 介绍IEF服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。 表1 IEF服务监控指标 指标类别 分类 AOM呈现的指标 IEF上报的指标
age、CCE等外部服务在某种状态发生变化后上报给AOM的信息。 告警和事件的区别 告警是AOM自身,或AOS、ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
CCE集群id。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 从IAM服务获取的用户Token。 Content-Type 是 String 指定类型为application/json。 Enterprise-Project-Id
根据需要参考对应的创建操作,具体请参见: Prometheus实例 for ECS Prometheus实例 for CCE Prometheus 通用实例 将原生Prometheus的指标通过Remote Write地址上报到AOM服务端。具体请参见 将Prometheus的数据上报到AOM。 父主题:
概述 自动化运维服务依托华为云UniAgent运维通道的能力,提供批量脚本执行、文件分发、云服务变更等原子操作功能,支持自定义编排原子操作并组装成作业和标准化运维流程。自动化运维将日常运维操作沉淀并发布成服务,实现日常变更的标准化、自动化、无差异化运维,将运维工作从日常重复繁杂的
基础指标:IoTDA指标 介绍IoTDA服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 IoTDA服务监控指标 指标类别 指标 指标名称 指标含义 取值范围 单位 设备总数 iotda_device_status_onlineCount 在线设备数 统计租户在当前实例/资源空间下的在线的设备数量
故障传播链分析 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 功能入口 登录AOM 2.0控制台。 在菜单栏选择“监控中心”,进入“监控中心”界面。
创建事件类告警规则 通过事件类告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM控制台,在左侧导航栏中选择“告警
事件巡检:提供基于应用性能管理APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常。 事件根因分析:提供基于应用性能管理APM平台的调用链追踪根因定位技术。可以从应用服务和流量Top N接口的指标、调用链维度,全局分析问题,快速诊断并定位故障根因。
欠费说明 用户在使用云服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费原因 按需计费模式下,您的账户的余额不足会导致欠费。 欠费影响 当您的账号因AOM按需资源自动扣费导致欠费后,账号将变成欠费状态。欠费后,按
日志订阅和阈值告警订阅:依赖分布式消息服务Kafka版,发送日志或阈值告警数据到Kafka队列中,可从分布式消息服务的Kafka队列中获取消费日志或阈值告警数据。分布式消息服务Kafka版-价格说明 应用性能管理:AOM集成了应用性能管理服务(简称APM),方便提供更高级的运维能力。APM-价格说明
全局拓扑 拓扑图的每根线条代表服务之间一段时间的调用关系,可以是从调用方统计的,也可以是从被调用方统计的。单击线条,右边可以查看这个调用关系的趋势图。同时拓扑图也能展示中间件的调用关系。通过拓扑图,一方面可以自动梳理服务之间的调用关系,同时也可以从全局视角查看服务之间调用是否正常,快速定位问题。
通过Prometheus监控服务将指标数据上报到AOM后,即可在“资源消耗”界面查看上报的基础指标和自定义指标数量,方便用户分析资源使用情况。 前提条件 服务已接入可观测Prometheus 监控。具体操作,请参见: Prometheus实例 for ECS Prometheus实例
401 Unauthorized 在客户端提供认证信息后,返回该状态码,表明服务端指出客户端所提供的认证信息不正确或非法。 403 Forbidden 请求被拒绝访问。返回该状态码,表明请求能够到达服务端,且服务端能够理解用户请求,但是拒绝做更多的事情,因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。
UniAgent:UniAgent的全称是统一数据采集Agent,主要是作为云服务运维系统的底座,为AOM提供指令下发,如脚本下发和执行,用于插件集成(ICAgent、CES、telescope等)并维护其状态。UniAgent对外功能主要是为AOM服务提供中间件指标采集和自定义指标采集的能力。 UniA