检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自定义设置 自定义设置页签包括关联日志服务设置、Profiler性能剖析配置、组件与基础设施关联分析设置。 关联日志服务设置 应用性能管理(APM)与云日志服务(LTS)关联,您可以在 LTS中关联调用链的 TraceID 信息,当应用出现故障时,可以通过调用链的 TraceID
使用流程 应用运维管理(Application Operations Management,以下简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活的告警及丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况
查询指定告警行动规则详细信息 场景描述 本章以通过告警行动规则名称获取告警行动规则为例。 涉及的基本信息 通过告警行动规则名称获取告警行动规则之前,需要确定要获取的告警行动规则名称,该名称可通过“获取告警行动规则列表”接口查询,也可以通过在AOM 2.0console界面查询到的告警行动规则名称获取
产品架构 AOM是一个以资源数据为中心并关联日志、指标、资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。 架构图 图1 AOM架构 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器
什么是应用运维管理 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案
脚本管理 “脚本管理”页面展示现有的所有脚本信息。您可以在这里创建脚本,也可以修改、复制已创建的脚本。创建完成后,可以为脚本新建执行任务,也可创建任务后在任务管理中执行并查看。每个脚本支持最多创建20个版本,单用户支持创建的所有脚本的版本合计最多1000个。 创建脚本 登录AOM
创建抑制规则 使用抑制规则,您可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警。或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。 注意事项 若在发送告警通知之前抑制条件对应的源告警已恢复正常,则抑制规则失效,抑制对象
安装ICAgent(华为云主机) ICAgent用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于通过CCE间接购买的主机,ICAgent会自动安装,您不用安装ICAgent。 安装前提 在进行ICAgent安装前,需要先确保本地浏览器时间与服务器时区
错误码 当您调用API时,如果遇到“APIGW”开头的错误码,请参见API网关错误码进行处理。 更多服务错误码请参见API错误中心。 状态码 错误码 错误信息 描述 处理措施 200 SVCSTG.INV.2000000 null 请求正常执行 请求执行完成无需处理。 200 SVCSTG_AMS
查看单个策略 功能说明 该接口用于查询指定项目下单个策略的详细信息。 URI GET /v1/{project_id}/pe/policy/{policy_id} 参数说明请参见表1。 表1 参数说明 参数名称 是否必选 描述 project_id 是 项目ID policy_id
ICAgent安装成功后,无法在界面上获取到ICAgent状态 问题描述 ICAgent安装成功后,无法在界面上获取到ICAgent状态。 原因分析 用户侧使用虚拟网卡,想要获取到ICAgent状态信息需要修改下相关脚本规避。 解决办法 以root用户登录已安装ICAgent的CCE
查看策略列表 功能说明 该接口用于查询指定项目下所有策略的详细信息。 URI GET /v1/{project_id}/pe/policy 参数说明请参见表1。 表1 参数说明 参数名称 是否必选 描述 project_id 是 项目ID 请求消息 请求消息头 无 请求参数 无 请求示例
自动化运维 “√”表示支持,“x”表示暂不支持。 表1 自动化运维 权限 对应API接口 授权项 IAM项目(Project) 企业项目(Enterprise Project) 创建任务 POST /v1/{project_id}/cms/workflow cms:workflow
获取Prometheus实例的服务地址 在default、ECS、CCE、通用实例类型的Prometheus实例的“设置”页签下“服务地址”区域,可以获取当前Prometheus实例的Remote Read和Remote Write Prometheus配置代码。在云服务、多账号聚合
基本概念 本文汇总使用Prometheus监控过程中涉及的基本概念,方便您查询和了解相关概念。 表1 基本概念 概念 说明 Exporter 一个采集监控数据并通过Prometheus监控功能规范对外提供数据的组件。目前有上百个官方或者第三方 Exporter可供使用,具体请参见Exporter
通过helm部署pod的yaml文件后,AOM无法检测到工作负载 问题描述 通过helm部署pod的yaml文件后,AOM无法检测到工作负载。 原因分析 通过对比helm部署pod的yaml文件和在CCE控制台部署的pod yaml文件,发现helm部署pod的yaml文件中缺少env
更新策略 功能说明 该接口用于修改策略规则。 告警策略支持更新,定时和周期策略不支持更新。 URI PUT /v1/{project_id}/pe/policy/{policy_id} 参数说明请参见表1 表1 参数说明 参数名称 是否必选 描述 project_id 是 项目ID
状态码 状态码如表1所示。 表1 状态码 状态码 编码 错误码说明 100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP
数据多写 通过数据多写功能,可以实现跨VPC的访问,而不必暴露服务端相关的网络信息,以更加安全、可靠的方式将监控数据上报到自建Prometheus中。 前提条件 服务已接入ECS类型Prometheus监控,具体请参见Prometheus实例 for ECS。 服务已接入云服务类型
基础指标:Modelarts指标 介绍Modelarts通过Agent上报到AOM的指标。 表1 Modelarts通过Agent上报到AOM的指标 指标类别 指标 指标名称 指标含义 取值范围 单位 CPU ma_container_cpu_util CPU使用率 该指标用于统计测量对象的