检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
战: 应用之间的依赖关系复杂,难以梳理。 调用链路长,排查和定位群体困难。 接口调用、数据库调用关系复杂,管理难度大。 解决方案 AOM提供大型分布式应用异常诊断能力,当应用出现崩溃或请求失败时,通过应用拓扑+调用链下钻能力分钟级完成问题定位。 基于应用拓扑自助发现,定位性能瓶颈。
*从00:00开始,每隔5小时查询一次,分别为0时、5时、10时、15时、20时。例如:当前时间为16:37,下一次查询时间为20:00。 0 14 * * *每天14:00查询一次。 0 0 10 * *每月10日00:00查询一次。 恢复策略 配置恢复策略,即满足该策略时,会发送告警恢复通知。
创建阈值规则 通过阈值规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 创建方式 阈值规则的创建方式分为两种:自定义阈值规则和使用模板创建阈值规则。一次创建后,只生成一条规则,无论是一个还是多个资源,均通过同一条规则进行
PostgreSQL Exporter接入AOM实现指标监控 应用场景 使用PostgreSQL过程中需要对PostgreSQL运行状态进行监控,以便了解PostgreSQL服务是否运行正常,及时排查PostgreSQL故障问题原因。Prometheus监控服务提供了CCE容器场
应用资源管理使用限制 表1 应用资源管理使用限制 限制项 说明 应用数量 租户创建的应用个数最多不超过1000。 子应用数量 应用下创建的子应用数量最多不超过50。 组件数量 子应用下的创建的组件数量最多不超过50。 环境数量 组件下可创建的环境数量最多不超过20。 资源数量 单个环境管理的同类实例资源数量最多不超过2000。
告警规则分为指标告警规则和事件告警规则两种。 通过指标告警规则,实时监控环境中主机、组件等资源使用情况。 当资源使用告警过多,告警通知过于频繁时,通过事件告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 告警通知 告警通知有2种方式: 直接告警:在配置告警规则的时
--collect.database # 启用数据库指标采集 - --collect.collection # 启用集合指标采集 - --collect.topmetrics # 启用数据库表头指标信息采集
“定时运维”页面展示所有定时任务的执行记录。您可以在这里创建定时任务,也可以管理已创建的定时任务。创建定时任务后,系统按确定时间或周期定时触发脚本执行、文件管理、服务场景以及作业管理等操作。定时任务单用户最多支持创建100个。 创建任务 登录AOM 2.0控制台。 在左侧导航栏单击“
长。 如果在AOM中已创建日志接入LTS规则,则实际的日志存储时长以LTS中“日志管理”界面设置的“日志存储时间(天)”为准,“配置设置”界面的“日志存储时长”不生效。 图1 查看日志配额 超额继续采集日志:开启后表示当日志超过免费赠送的额度(500M)时,继续采集日志,超过的部分按需收费。
创建静态阈值模板 使用模板创建阈值规则前需要先创建一个静态阈值模板。 注意事项 您最多可创建50个静态阈值模板,如果静态阈值模板数量已达上限50个时,请删除不需要的静态阈值模板后重新创建。 操作步骤 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”。 在“静态阈值模板”页签下,单击“创建静态阈值模板”。
指标 指标数据 基础规格:指标数据在数据库中最多保存7天。 专业规格:指标数据在数据库中最多保存30天。 指标总量 单租户总指标量不超过40W 小规格总指标量不超过10W 指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 维度 每个指标的维度最多为20个。
监控数据粒度。取值范围(枚举): 60:表示粒度为1分钟。 300:表示粒度为5分钟。 900:表示粒度为15分钟。 3600:表示粒度为1小时。 statistics 是 Array of strings 统计方式。 取值范围 maximum,minimum,sum,average,sampleCount
通知频率:只通知一次 告警行动规则:aomtest 单击“立即创建”,完成创建。创建完成后,单击“返回告警规则列表”可查看已创建的告警规则。 如图8所示,单击规则名称前的,可查看该告警规则的详细信息。 在展开的列表中,只要监控对象满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理
您还可以在云服务监控页面创建告警规则和导出原始监控数据。 查看监控指标 在监控指标页面上,您可以查看基于近1小时、近3小时 、近12小时、近 24小时、近7天和近30天收集的原始数据的图表。您可以自定义选择要查看的监控指标,数据可实现自动刷新。 创建告警规则 用户对云服务的核心
SQL语句才能创建统计规则,例如select count(*) where code >= 500语句可创建统计规则,select count(*) group by ip语句则不能创建统计规则。 注意事项 统计规则是以日志桶为单位,创建统计规则前需确保至少已创建了一个日志桶,一个日志桶下最多可创建5条统计规则。
指标 指标数据 基础规格:指标数据在数据库中最多保存7天。 专业规格:指标数据在数据库中最多保存30天。 指标总量 单租户总指标量不超过40W 小规格总指标量不超过10W 指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 维度 每个指标的维度最多为20个。
关闭 用户自定义ServiceMonitor或PodMonitor配置采集指标并上报指标到AOM,产生相关费用。比如容器场景自定义中间件mysql、nginx、业务指标等。 云服务场景 云服务接入AOM Prometheus实例后,部分云服务产生计费。具体如下: 不计费云服务:Mo
2022-01-25 支持创建告警规则。通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 2021-10-20 支持创建告警行动策略。关联SM
设置告警降噪方式 单击“立即创建”,完成创建。如下图所示,创建了一条事件类告警规则。 该规则监控对象为AOM服务的紧急告警事件,当服务事件满足已设的通知策略时,系统就会以邮件、短信等方式发送告警通知给指定人员。 图5 事件类告警规则 更多事件类告警规则操作 事件类告警规则创建完成后,您还可以执行表2中的操作。
30分钟 1小时 4小时 1分钟、5分钟、15分钟、1小时 1天 今天 1周 1小时 本周 30天 本月 自定义(相对) 1分钟、5分钟、15分钟、1小时 整点时间 1分钟 1分钟、5分钟 15分钟 30分钟 1小时 4小时 1分钟、5分钟、15分钟、1小时 1天 1周 1小时 30天