检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
您可通过接入管理生成的认证凭据access_code,将原生Prometheus的指标通过remote write上报到AOM服务端,参见将Prometheus的数据上报到AOM,实现时序数据的长期存储;也可以通过access_code作为认证凭据来查询AOM中的数据,参见通过gr
返回结果 状态码 请求发送以后,您会收到响应,包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于管理员创建IAM用户接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请
去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段
驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0
请求Body参数 参数 是否必选 参数类型 描述 name 否 String 查询接收的参数,版本管理时,name为脚本名称(版本管理查询时name不能为空),脚本管理页面查询时,name为接收模糊查询的参数,name是null,表示查询所有默认脚本。 最小长度:0 最大长度:128 is_default
选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 迁移操作无法恢复,请谨慎操作。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。 父主题: 升级AOM
请求Body参数 参数 是否必选 参数类型 描述 name 否 String 查询接收的参数,版本管理时,name为脚本名称(版本管理查询时name不能为空),脚本管理页面查询时,name为接收模糊查询的参数,name是null,表示查询所有默认脚本。 最小长度:0 最大长度:128 is_default
选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 迁移操作无法恢复,请谨慎操作。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。 父主题: 升级AOM
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
自定义监控)。 指标命名空间 指标命名空间是对一组资源和对象产生的指标的抽象整合,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。 系统指标的命名空间:命名空间是固定不变的,均以“PAAS.”开头,如表1所示。 表1 系统指标命名空间 命名空间名称
配置CCE集群指标管理 通过新增ServiceMonitor或PodMonitor的方式为应用配置可观测监控 Prometheus 版的采集规则,来监控部署在CCE集群内的应用的业务数据。 前提条件 服务已接入CCE类型Prometheus 监控并接入CCE集群,具体请参见Prometheus实例
服务场景会按照场景分类展现对应的已上架的工具卡片,可以使用卡片快速创建任务,也可以对卡片进行收藏或下架操作。如果不需要对卡片做下架操作,请参考自动化运维自定义策略,拒绝卡片下架操作。具体操作如表1。 表1 相关操作 操作 说明 收藏卡片 单击待收藏卡片上的。 下架卡片 单击卡片右上角的并选择“下架”。
功能说明 AOM 2.0控制台入口 APM控制台入口 参考文档链接 前端站点 APM Agent会周期性采集一些前端监控的性能指标数据,用来衡量浏览器/H5端、小程序端的总体健康状况。 登录AOM 2.0控制台。 在左侧导航栏选择“Web监控 > 前端站点”。 登录APM控制台。 在左侧导航栏选择“Web监控
是否需要同步 nodes Array of Node objects 任务执行时需要的参数列表。 数组长度:1 - 20 parameters Array of Parameter objects 任务执行时需要的参数列表。 数组长度:0 - 20 project_id String 项目id
通过ECS验证到AOM域名的连通性。 登录弹性云服务器 ECS控制台。 在左侧导航栏中选择“弹性云服务器 > 弹性云服务器”。 单击弹性云服务器名称,进入弹性云服务器的“基本信息”页签。 检查弹性云服务器中的“虚拟私有云”与步骤一购买终端节点时选择的虚拟私有云是否一致。 若一致,则继续后续操作。
Management)常见应用场景的操作实践,为每个实践提供详细的方案描述和操作指导,帮助用户轻松使用AOM。 表1 AOM 最佳实践一览表 最佳实践 说明 建设完整指标体系,实现立体化监控 本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。 通过告警降噪清除告警风暴
是否需要同步 nodes Array of Node objects 任务执行时需要的参数列表。 数组长度:1 - 20 parameters Array of Parameter objects 任务执行时需要的参数列表。 数组长度:0 - 20 project_id String 项目id
通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 配置信息如下: apiVersion: monitoring.coreos.com/v1
通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下示例中指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion: monitoring.coreos.com/v1
通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下示例中指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion: monitoring.coreos.com/v1