检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AOM查看事件巡检数据 事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。 功能说明 事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。 获取基础数据时间范围如下: 基于应用3小
通过AOM查看故障传播链 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 查看故障传播链图谱 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。
通过AOM监控工作负载 工作负载监控是针对CCE、CCI工作负载的监控,通过工作负载监控您可以及时了解工作负载的资源使用、状态和告警等信息,以便快速响应处理告警或事件信息,保证工作负载顺畅运行。工作负载分为五种类型:无状态负载 Deployment、有状态负载 StatefulSet、守护进程
单次创建告警规则可选择的被监控对象数 5000 不限制,支持全部资源、正则匹配、精准匹配。 聚合告警 不支持 支持基于PromQL语法的聚合告警,例如:按CDN总带宽、EIP总带宽和OBS存储等条件聚合告警。 对接线下Grafana 不支持 支持以Prometheus数据源的方式直接对接到线下Grafana。
通过华为云标签(Tag)分发告警 通过配合使用Prometheus监控和告警管理功能,可以按照华为云标签对资源进行告警。本文演示如何通过标签对DCS实例的CPU利用率指标进行告警。 实践场景 某电商平台运维人员在监控指标时,想要通过标签维度管理云上各种资源并分发告警。 解决方案
通过Debugging诊断代码 Debugging诊断概述 通过Debugging诊断线程 通过Debugging诊断方法 通过Debugging诊断对象 父主题: 监控组件性能指标
管理AccessCode AccessCode是调用API的身份凭据。通过创建AccessCode可为当前用户配置API服务的调用权限。该权限设置针对整个AOM 2.0服务生效。 约束与限制 每个用户最多可创建2个AccessCode。 AccessCode删除后将无法恢复,请谨慎操作。
多指标 指标 需要监控的指标。单击“指标”文本框,通过下拉框右侧的资源树,可以按资源类型快速选择需监控的指标。 aom_process_cpu_usage 统计周期 指标数据按照所设置的统计周期进行聚合。 1分钟 条件 指标监控的维度。不设置则表示选中全部资源。本示例可不填写。 - 分组条件
如果在AOM中已创建日志接入LTS规则,则实际的日志存储时长以LTS中“日志管理”界面设置的“日志存储时间(天)”为准,“配置设置”界面的“日志存储时长”不生效。 图1 查看日志配额 超额继续采集日志:开启后表示当日志超过免费赠送的额度(500M)时,继续采集日志,超过的部分按需收费。 “超额继续
使用模板创建大屏页面后,可根据自身的业务需求自定义页面呈现的内容。例如,通过API接口查询AOM阈值规则,并将数据呈现在通用表格中。如何通过接口查询AOM监控的阈值规则,请参见查询阈值规则列表。 新建转换器。 在使用OpenAPI中alarm的内容时,需要通过转换器将所需的字段转换为您所需要的格式。本示例中,需要将数据转换为数组格式。
通过Grafana查看Prometheus实例数据 将云服务或CCE集群接入Prometheus实例后,即可通过Grafana查看AOM中相关集群或云服务的指标数据。 前提条件 已购买弹性云服务器ECS。 已购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
通过AOM查看事件根因分析结果 智能洞察提供异常事件快速根因定位分析的功能。根因分析基于事件巡检看护的服务历史数据,根据服务指标、调用链数据进行下钻分析,细粒度定位事件根因。 查看事件根因分析结果 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角
搜索日志 当需要通过日志来分析和定位问题时,使用日志搜索功能可帮您快速在海量日志中查询到所需的日志,您还可结合日志的来源信息和上下文原始数据一起辅助定位问题。 在左侧导航栏中选择“日志 > 日志搜索”。 在“日志搜索”页面中选择日志页签(即组件、系统、主机)并按照界面提示设置日志查询条件。
需要监控的指标,仅支持英文展示和英文搜索。 单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。 统计周期 指标数据按照所设置的统计周期进行聚合,包括:15秒、30秒、1分钟、5分钟、15分钟、1小时。 条件 指标监控的维度。不设置则表示选中全部资源。 指标的条件为key
通过Profiler分析代码性能 Profiler性能分析支持自动获取应用程序运行过程中的CPU、内存、时延的使用情况。通过火焰图实时展示每一个方法的调用关系和执行率,帮助用户优化代码性能。 约束与限制 Profiler性能分析,仅针对白名单用户开放,如有需求可以通过提交工单,联系工程师为您开放此功能。
jPxxxxxx' 检查内网域名配置 由于上述配置中的数据上报是通过内网进行数据传输,因此需要确保您的Prometheus所在的主机能够解析内网域名,请参考配置内网DNS。 重新启动Prometheus。 可通过通过grafana查看AOM中的指标数据中grafana查询指标数据
其他区域暂未开放,敬请期待。 您可通过接入管理生成的认证凭据access_code,将原生Prometheus的指标通过remote write上报到AOM服务端,参见将Prometheus的数据上报到AOM,实现时序数据的长期存储;也可以通过access_code作为认证凭据来
数累计达到或超过3次,则每5分钟发送一次告警通知直到告警被清除。 如果在设置告警通知策略时选择“告警降噪”方式,则此处设置的告警发送频率不生效,统一按告警降噪中设置的频率发送告警通知。 立即触发:事件或者告警满足筛选条件后立即触发一次告警通知。 告警级别:事件告警的级别,包括: :表示紧急告警。
"cce:node:list" ] } ] } 父主题: 通过IAM授予使用AOM的权限
将会在哪个主机上执行。如果不选任何主机,规则将会在所有主机上执行,包含后续新增的主机。 单击“添加”,完成配置。 AOM会基于配置的应用发现规则采集指标数据。等待大约两分钟后,您可以做如下操作: 在“应用监控”页签,找到已被监控的应用,详情请参见:通过AOM监控应用进程。 在“组