检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
添加日志转储 AOM支持将日志转储到对象存储服务(Object Storage Service,简称OBS)的OBS桶中,以便进行长期存储。如果您有更长时间的日志存储需求,可添加日志转储。 AOM提供周期性转储和一次性转储两种转储方式,供您选择使用。 周期性转储:将当前日志实时转
场景分类 在场景分类页面自动化运维已定义了服务场景的类型,具体如下: 故障处理 日常巡检 软件部署 云服务场景 通用场景 父主题: 设置
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。
除对应的成员账号。 接入云服务:从云服务下拉列表中选择需要监控的一个或多个云服务。 数据存储:组织内子账号指标数据接入Prometheus For聚合实例后,子账号保留数据。系统默认不选择。 添加云服务支持的相关指标:单击“新增指标”,依次为接入的云服务添加相关指标。 图1 账号接入界面
管理主机组 AOM作为华为云服务可观测性分析统一入口,自身并不具有日志服务功能,AOM 2.0控制台中“主机组管理”功能由云日志服务LTS提供。用户可在AOM 2.0控制台界面操作,也可登录LTS控制台界面操作。 需要先购买云日志服务的相关功能,才可以使用AOM 2.0控制台中“主机组管理”功能。
Prometheus实例读写地址支持公网的局点 华为云用户应使用公网Remote Read地址和Remote Write地址访问AOM的Prometheus监控服务,内网地址仅供华为云内部云服务调用。 公网Remote Write地址仅部分局点支持,具体请参见表1。 表1 支持公网数据上报的说明 局点名称 Region名称
Prometheus实例 for CCE CCE Prometheus实例类型,适合需要对容器服务集群及其上面运行的应用进行一体化监控场景。默认提供对容器服务CCE集群的监控集成,也可通过接入中心添加容器服务集群中的各种组件的监控。 注意事项 在CCE “插件市场” 页面存在云原生监控插件(
age、CCE等外部服务在某种状态发生变化后上报给AOM的信息。 告警和事件的区别 告警是AOM自身,或AOS、ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
击对应作业右侧的“执行方案”,单击待发布成服务的方案所在行操作列的“发布成服务”。 图9 发布成服务 填写基本信息,单击“确定”发布。具体的参数说明请参见表6。 图10 发布成服务信息 表6 发布成服务参数 参数名称 说明 服务名 服务名称,最多可输入64个字符,只能包含大小写字母、数字、下划线、中划线和中文。
事件根因分析 事件根因分析服务提供异常事件快速根因定位分析的功能,根因分析基于事件巡检看护的服务历史数据,根据服务指标、调用链数据进行下钻分析,细粒度定位根因。 功能入口 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角设置应用的时间范围。可通过如下两种方式设置时间范围:
创建事件告警规则 通过事件告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏中选择“告警管理
Stage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。 告警和事件的区别 告警是AOM自身,或ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
创建事件类告警规则 通过事件类告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM控制台,在左侧导航栏中选择“告警
模板的描述信息,最多可输入1024个字符。 为模板添加监控的云服务及告警规则。 从下拉列表选择需要新增告警规则的云服务。 单击云服务名称页签,为对应云服务新增告警规则,详细的新增方式请参见表2。 图1 创建云服务的告警规则 表2 为云服务新增告警规则 云服务名称 告警规则类型 新增方式 Functi
事件巡检:提供基于应用性能管理APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常。 事件根因分析:提供基于应用性能管理APM平台的调用链追踪根因定位技术。可以从应用服务和流量Top N接口的指标、调用链维度,全局分析问题,快速诊断并定位故障根因。
基础指标:IoTDA指标 介绍IoTDA服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 IoTDA服务监控指标 指标类别 指标 指标名称 指标含义 取值范围 单位 设备总数 iotda_device_status_onlineCount 在线设备数 统计租户在当前实例/资源空间下的在线的设备数量
根据需要参考对应的创建操作,具体请参见: Prometheus实例 for ECS Prometheus实例 for CCE Prometheus 通用实例 将原生Prometheus的指标通过Remote Write地址上报到AOM服务端。具体请参见 将Prometheus的数据上报到AOM。 父主题:
故障传播链分析 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 功能入口 登录AOM 2.0控制台。 在菜单栏选择“监控中心”,进入“监控中心”界面。
全局拓扑 拓扑图的每根线条代表服务之间一段时间的调用关系,可以是从调用方统计的,也可以是从被调用方统计的。单击线条,右边可以查看这个调用关系的趋势图。同时拓扑图也能展示中间件的调用关系。通过拓扑图,一方面可以自动梳理服务之间的调用关系,同时也可以从全局视角查看服务之间调用是否正常,快速定位问题。
及业务的实时运行状况。 了解服务 立即使用 成长地图 由浅入深,带您玩转AOM 01 了解 AOM是云上应用的一站式立体化运维管理平台。 产品介绍 什么是AOM 应用场景 与其他服务的关系 约束与限制 指标总览 基本概念 03 入门 快速了解AOM服务在不同应用场景中的操作流程。