-
概述 - 应用运维管理 AOM
监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规则总计不能超过1000条,即创建的告警规则数量不能超过1000条。如果系统中的告警规则数
-
入门实践 - 应用运维管理 AOM
告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。 应用发现最佳实践 应用发现是指AOM通过配置的规则发现和收集主机上部署的应用和关联的指标。可在“应用监控”界面和“监控概览”界面查看发现的应用和应用对应的指标数据。
-
查询绑定在节点上的资源列表 - 应用运维管理 AOM
CE_ID ci_relationships 否 Boolean 是否需要返回拓扑树,默认是false。需要:true---性能差,不需要false--性能好 ci_type 是 String 节点类型,取值:application、sub_application、component、environment
-
安装UniAgent - 应用运维管理 AOM
表示主机未安装UniAgent。安装UniAgent,详细操作请参见安装UniAgent。 安装时遇到的问题和解决方法 如果您在安装UniAgent时遇到问题,请参考常见问题处理。 父主题: 虚机接入
-
通过多账号聚合Prometheus实例实现指标数据统一监控 - 应用运维管理 AOM
管理员身份。 被监控账号当前支持汇聚的包括“Prometheus for 云服务”可接入的18个云服务指标(FunctionGraph,EVS,CBR,OBS,VPC,ELB,DC,NAT,DMS,DCS,RDS,DDS,DRS,LakeFormation,MRS,GaussDB
-
Prometheus监控概述 - 应用运维管理 AOM
采集等需用户自行配置。 适合已经自建了Prometheus Server,但需要通过远端存储(Remote Write)方式来解决数据存储问题的可用性和可扩展性场景。 Prometheus实例 for 多账号聚合实例 同一个组织下多账号的云服务资源、CCE资源和ECS资源 支持对
-
配置容器服务日志采集路径 - 应用运维管理 AOM
AOM的日志绕接能力是使用copytruncate方式实现的,如果选择了设置,请务必保证您写日志文件的方式是append(追加模式),否则可能出现文件空洞问题。 当前主流的日志组件例如Log4j、Logback等均已经具备日志文件的绕接能力,如果您的日志文件已经实现了绕接能力,则无需设置。否则可能出现冲突。
-
查询指标类或者事件类告警规则列表 - 应用运维管理 AOM
asc alarm_create_time.desc event_source 否 String 事件告警规则事件来源。 “RDS” “EVS” “CCE” “LTS” “AOM” event_severity 否 String 事件告警级别。 “Critical" “Major”
-
添加日志转储 - 应用运维管理 AOM
B时,实时转储。 5分钟内累计日志条数小于1000条或日志大小不足2MB时,每5分钟转储。 将存储在OBS中的日志文件下载到本地,以供定位问题使用。 在周期性转储列表中,单击待操作的OBS桶名称,进入OBS服务的“对象”页面。 在“对象”页签下,找到存储在OBS中的日志文件,例如,192
-
仪表盘 - 应用运维管理 AOM
看某一时间范围的资源数据。 图11 图表操作 说明: 当主机、组件等资源被删除后,在仪表盘中针对这些资源创建的图表不会自动删除,为提高系统性能,您需要手动删除不需要的图表。 复制 删除 放大 时间选择 刷新 调整大小 将鼠标指针移至图表右下角,当鼠标指针变为时按住鼠标左键并进行拖动。
-
告警模板 - 应用运维管理 AOM
云服务名称 告警规则类型 新增方式 FunctionGraph、DRS、RDS、NAT、VPC、DCS、CSS、DC、CBR、DMS、ELB、EVS、OBS、DDS、WAF 指标告警规则 单击“新增阈值告警规则”。 在弹出的“创建规则”对话框中设置规则名称、指标数据和告警条件等信息,设
-
添加阈值规则 - 应用运维管理 AOM
错误信息描述。 error_type String 错误类型。 trace_id String 跟踪编号。主要用于开发人员快速搜索日志,定位问题。当返回的状态码为2xx时,trace_id为空;当返回4xx的状态码时,trace_id不为空。 状态码: 500 表7 响应Body参数
-
通过告警降噪清除告警风暴 - 应用运维管理 AOM
在异常情况时,立即触发告警。并提供告警降噪功能,支持发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,帮助用户快速识别重点问题,避免产生告警风暴。 告警降噪功能分为分组、去重、抑制、静默四部分: 使用分组规则,您可以从告警中筛选出满足条件的告警子集,然后按分组条件
-
阈值告警最佳实践(新版) - 应用运维管理 AOM
告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。 支持的指标 AOM支持为主机、组件等多种资源的指标设置阈值告警,具体支持的指标类型可在创建阈值告警规则的页面查看。 更多指标介绍可参见指标总览。
-
删除阈值规则 - 应用运维管理 AOM
错误信息描述。 error_type String 错误类型。 trace_id String 跟踪编号。主要用于开发人员快速搜索日志,定位问题。当返回的状态码为2xx时,trace_id为空;当返回4xx的状态码时,trace_id不为空。 请求示例 删除阈值规则id为“alarm_rule_id”的阈值规则。
-
批量删除阈值规则 - 应用运维管理 AOM
错误信息描述。 error_type String 错误类型。 trace_id String 跟踪编号。主要用于开发人员快速搜索日志,定位问题。当返回的状态码为2xx时,trace_id为空;当返回4xx的状态码时,trace_id不为空。 请求示例 按照规则名称批量删除阈值规则。
-
查询单条阈值规则 - 应用运维管理 AOM
错误信息描述。 error_type String 错误类型。 trace_id String 跟踪编号。主要用于开发人员快速搜索日志,定位问题。当返回的状态码为2xx时,trace_id为空;当返回4xx的状态码时,trace_id不为空。 请求示例 获取一条告警规则ID为 “alarm_rule_id”
-
查询阈值规则列表 - 应用运维管理 AOM
错误信息描述。 error_type String 错误类型。 trace_id String 跟踪编号。主要用于开发人员快速搜索日志,定位问题。当返回的状态码为2xx时,trace_id为空;当返回4xx的状态码时,trace_id不为空。 请求示例 获取用户ID为 “Project_Id”
-
修改阈值规则 - 应用运维管理 AOM
错误信息描述。 error_type String 错误类型。 trace_id String 跟踪编号。主要用于开发人员快速搜索日志,定位问题。当返回的状态码为2xx时,trace_id为空;当返回4xx的状态码时,trace_id不为空。 请求示例 修改名称为“testaom”
-
添加或修改指标类或事件类告警规则 - 应用运维管理 AOM
“customEvent”:自定义事件 枚举值: systemEvent customEvent event_source 否 String 告警来源。 “RDS” “EVS” “CCE” “LTS” “AOM” monitor_objects 否 Array of Map<String,String> objects