检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过华为云标签(Tag)分发告警 通过配合使用Prometheus监控和告警管理功能,可以按照华为云标签对资源进行告警。本文演示如何通过标签对DCS实例的CPU利用率指标进行告警。 实践场景 某电商平台运维人员在监控指标时,想要通过标签维度管理云上各种资源并分发告警。 解决方案
以废弃一个或多个指标。单次废弃指标最多支持废弃100个指标。 如何恢复已废弃的自定义指标? 当用户需要重新使用某些自定义指标时,可以通过该功能将原来废弃的自定义指标恢复使用,指标恢复后将按照当前最新的计费规则重新计费。目前仅default类型、CCE类型、云服务类型的Promet
希望人员拥有AOM的使用权限,但是不希望其拥有删除应用发现规则等高危操作的权限,那么您可以使用IAM为开发人员创建用户,通过授予仅能使用应用发现规则,但是不允许删除应用发现规则的权限策略,控制其对应用发现规则资源的使用范围。 如果华为云账号已经能满足您的使用需求,不需要创建独立的
的监控能力,通过旧版接入中心快速接入需要监控的指标和日志,接入完成后,即可方便地在“指标浏览”页面查看相关资源或应用的运行状态、各个指标的使用情况、接入的日志等信息。 约束与限制 如果您进入的是新版接入中心,需要单击“接入中心”页面右上角“返回旧版”返回至旧版接入中心页面。 配置指标或日志接入AOM
告警通知”下的“通知组”和“通知对象”功能由云监控服务CES提供。用户可在AOM 2.0控制台界面操作,也可登录CES控制台界面操作。 约束与限制 如果需要在AOM控制台中使用CES的功能,需要提前获取CES的相关权限,详情请参见CES权限管理。 “通知对象”和“通知组”功能当前仅华南-广州区域受限开放,如有需求可以通过提交工单,为您开放此功能。
告警模板通常应用于当用户拥有多种云服务资源时,提前将这些资源的告警策略配置到一个或多个告警模板中,在配置告警规则时直接引用。对于使用模板创建的告警规则,可直接在模板中修改告警策略,会直接生效于使用该模板创建的所有告警规则,直接提升运维创建告警规则的效率,同时更高效的管理告警规则。 登录AOM 2.0控制台。
gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) gpuMemUsed gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) gpuUtil gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。
该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) GPU使用率(aom_cluster_gpu_usage) 该指标用于统计测量对象的GPU使用率。 0~100 百分比(%) 物理内存使用率(aom_cluster_memory_usage) 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。
更多静态阈值模板操作 静态阈值模板创建完成后,您还可以执行表1中的操作。 表1 相关操作 操作 说明 使用静态阈值模板创建一条批量阈值规则 单击“操作”列的“创建规则”,操作详见使用模板创建阈值规则。 修改静态阈值模板 单击“操作”列的“编辑”。 删除静态阈值模板 删除一个静态阈值模板:单击“操作”列的“删除”。
当服务的资源数据满足事件条件时,如需使用企业微信、钉钉、飞书、语音、welink、邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 系统支持创建的指标告警规则、事件告警规则、应用性能监控告警规则总计不能超过3000条。 设置告警通知策略时,不推荐使用告警降噪并关联分组规则,累计触发相当于告警降噪。
、LTS日志和APM调用链,接入完成后,即可方便地在“指标浏览”、“日志管理”、“应用监控”等页面查看相关资源或应用的运行状态、各个指标的使用情况、接入的LTS日志、APM调用链等信息。 约束与限制 如果您进入的是旧版接入中心,需要单击“接入中心”页面右上角“体验新版”进入新版接入中心页面。
CPU内核占用(aom_process_cpu_used_core) 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) CPU使用率(aom_process_cpu_usage) 该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。 0~100 百分比(%) 句柄数(
指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。指标分为系统指标和自定义指标。 系统指标:AOM提供的基础指标,例如:CPU使用率、CPU内核占用等。 自定义指标:您自己定义的指标。可参考如下两种方式上报自定义指标。 方式一:通过AOM提供的接口上报自定义指标,接口详见添加监控数据和查询监控数据。
已创建ECS Prometheus实例。 创建自定义插件 AOM支持用户按需求通过自定义脚本的方式创建插件,并在自定义插件接入中创建采集任务使用该插件,将指标上报到AOM。 登录AOM 2.0控制台。 在左侧导航栏选择“接入 > 接入中心”,进入旧版接入中心。(当前新版接入中心不支
重启CCE工作负载 使用重启CCE工作负载卡片可以创建任务重启一个或多个CCE工作负载。 只支持对有状态负载和无状态负载进行重启,其余类型负载不支持。 创建重启CCE工作负载任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在
AOM支持创建日志指标规则,将ELB上报到LTS的日志数据提取为指标来统一管理,便于后续在指标浏览、仪表盘界面实时监控。 约束与限制: 如需通过“业务监控”菜单使用此功能,需提前在“菜单开关”中开启业务监控的开关,详细操作请参见菜单开关。 单个用户最多可创建100个日志指标规则,所有规则中添加的指标总数不能超过100。
0控制台中“一键告警”功能由云监控服务CES提供。用户可在AOM 2.0控制台界面操作,也可登录CES控制台界面操作。 约束与限制 如果需要在AOM控制台中使用CES的功能,需要提前获取CES的相关权限,详情请参见CES权限管理。 “一键告警”功能当前仅华南-广州区域受限开放,如有需求可以通过提交工单,为您开放此功能。
CPU使用率等指标,详见云产品监控指标。BMS不支持基础监控,需要安装主机监控Agent插件。 操作系统监控 通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。数据采集频率为1分钟1次。除了CPU使用率等指标外,还可以支持内存使用率(Linux)等指标,详见云产品监控指标。
创建抑制规则 使用抑制规则,您可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警。或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。 注意事项 若在发送告警通知之前抑制条件对应的源告警已恢复正常,则抑制规则失效,
重启RDS实例 使用重启RDS实例卡片可以创建任务重启一个或多个RDS实例。 创建重启RDS实例任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“服务场景”,在服务场景页面单击“重启RDS实例”,或单击卡片