检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建事件类告警规则 通过事件类告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM控制台,在左侧导航栏中选择“告警
管理主机组(新版) 主机组是为了便于分类管理、提升配置多个主机数据采集的效率,对主机进行虚拟分组的单位。您可以将多个主机加入到同一个主机组,并将该主机组关联至对应的接入规则配置中。配置接入规则时以主机组为单位下发采集配置,方便您对多台主机数据进行采集。当用户扩容主机时,只需在主机组中添加主机
故障传播链分析 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 功能入口 登录AOM 2.0控制台。 在菜单栏选择“监控中心”,进入“监控中心”界面。
根据设置的频率对指标数据查询和分析结果进行检查。 固定间隔 1分钟 告警恢复 连续多少个周期不满足告警条件,恢复告警。 1 无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。 开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”
Bandwidth 表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985
1个组件状态图表最多可添加10个组件。 指标 指标数据 基础规格:指标数据在数据库中最多保存7天。 专业规格:指标数据在数据库中最多保存30天。 指标总量 单租户总指标量不超过40W 小规格总指标量不超过10W 指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 维度
1个组件状态图表最多可添加10个组件。 指标 指标数据 基础规格:指标数据在数据库中最多保存7天。 专业规格:指标数据在数据库中最多保存30天。 指标总量 单租户总指标量不超过40W 小规格总指标量不超过10W 指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 维度
Prometheus 通用实例 Prometheus 通用实例类型,适合已经自建了Prometheus服务器,但需要通过远端存储(Remote Write)方式来解决Prometheus存储的可用性和可扩展性场景。 创建Prometheus 通用实例 登录AOM 2.0控制台。 在左侧导航栏选择“Prometheus监控
内满足搜索条件的事件。 您可参考表1执行如下操作: 表1 操作说明 操作 方法 说明 查看事件统计数据 单击“事件分布图”,可通过柱状图查看在指定时间范围内和搜索条件下事件的统计数据。 - 父主题: 告警管理
内满足搜索条件的告警。 您可参考表1执行如下操作: 表1 操作说明 操作 方法 说明 查看告警统计数据 单击“告警分布图”,可通过柱状图查看在指定时间范围内和搜索条件下告警的统计数据。 - 清除告警 在当前告警列表中单击目标告警所在“操作”列中的。 告警故障已经解除时可进行清除操作。
管理的基本单位,可以创建日志流以及设置日志存储时间,每个账号下可以创建100个日志组。创建日志组详细操作参见日志组。 日志流 选择日志流。日志流(LogStream)是日志读写的基本单位,日志组中可以创建日志流,将不同类型的日志分类存储,方便对日志进一步分类管理。创建日志流详细操作参见日志流。
通过新增ServiceMonitor或PodMonitor的方式为应用配置可观测监控 Prometheus 版的采集规则,来监控部署在CCE集群内的应用的业务数据。 前提条件 服务已接入CCE类型Prometheus 监控并接入CCE集群,具体请参见Prometheus实例 for CCE。 约束与限制
如果当前没有可选的Prometheus实例,可以单击“新建 Prometheus 实例”去创建一个ECS类型Prometheus实例。 选择主机组。 在主机组列表中选择待接入采集配置的主机组。 如果当前没有可选的主机组,可以单击“新建主机组”去创建一个主机组。 您还可以根据需要对主机组执行编辑、删除等相关操作,详情请参见管理主机组。
搜索同时包含start和unexpected的日志数据:start && unexpected。 搜索同时包含start和unexpected的日志数据:start AND unexpected 或者 start and unexpected。 搜索包含start或者unexpected的日志数据:start ||
统计资源消耗 通过Prometheus监控服务将指标数据上报到AOM后,即可在“资源消耗”界面查看上报的基础指标和自定义指标数量,方便用户分析资源使用情况。 前提条件 服务已接入可观测Prometheus 监控。具体操作,请参见: Prometheus实例 for ECS Prometheus实例
场景自建中间件接入AOM。 第三方云厂商或互联网数据中心自建Prometheus对接到AOM Prometheus实例 云上用户经常会遇到多云或者跨region采集自建Prometheus指标数据场景。典型场景例如:将者第三方云厂商或互联网数据中心(Internet Data C
采集管理 表1 采集管理基本概念 术语 说明 UniAgent 统一数据采集Agent,完成统一插件生命周期管理,并为AOM提供指令下发,如脚本下发和执行。它自身不提供数据采集能力,运维由不同的插件分工采集,插件按需安装、升级和卸载。后续逐步上线其它插件(如云监控和主机安全),统一规范管理。
解决方法 无需解决。 只要系统回显信息包含“ICAgent install success”,即表示ICAgent安装成功,ICAgent的数据采集等功能即可正常使用。 父主题: 常见使用问题
根据设置的频率对指标数据查询和分析结果进行检查。 固定间隔 1分钟 告警恢复 连续多少个周期不满足告警条件,恢复告警。 1 无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。 开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”