应用运维管理概述

应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,提供一站式可观测性分析和自动化运维方案,支持快速从云端、本地采集指标、日志和性能数据,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。

回到旧版

进入AOM 2.0任意页面,在右上角单击“返回旧版”,即可跳转至AOM 1.0的相关功能服务界面,AOM 1.0的相关操作请参见AOM 1.0用户指南。

升级AOM

进入AOM 2.0任意页面,在右上角单击“AOM 2.0升级指引”,即可参考相关指引将AOM 1.0 的数据迁移至AOM 2.0 ,具体操作请参见“升级AOM”。

权限设置

进入AOM 2.0任意页面,在右上角单击,为当前用户统一授予云服务数据的访问权限和API调用权限,具体操作请参见“权限设置”。

企业项目

一个企业项目可以包含一个或者多个应用,当前该功能仅对应用资源管理和监控中心相关操作开放。

进入AOM 2.0 “应用资源管理”或“监控中心”的任意页面,在菜单栏“全部企业项目”的下拉列表中,根据需要选择企业项目。

功能说明

类别
说明

总览

以应用视角和容器视角提供常用服务或功能快速入口,实时监控并展示重点资源或应用数据。

应用资源管理

作为AOM的应用资源管理中心,打破传统ITIL流程中面向基础资源各服务、应用各自为政、互相割裂的方式,将所有华为云上的资源对象与应用统一管理,并设置关联,为AOM上层运维场景服务提供准确、及时、一致的资源配置数据。

监控中心

作为AOM的一站式监控平台,提供从资源数据发现、资源数据展示到数据异常告警的全方位、可视化监控服务,可应用于ECS、RDS、CCE等云产品的可观测性分析。

自动化运维

作为AOM的自动化运维平台,提供从运维任务创建、触发到审批的端到端自动化运维服务,可应用于ECS、RDS、CCE等云产品的运维管理。

采集管理

作为AOM的采集管理平台,完成统一插件生命周期管理,并为AOM提供指令下发功能,如脚本下发和执行。UniAgent自身不提供数据采集能力,运维数据由不同的插件分工采集。

应用运维管理的优势

运维中心

集中管理云监控、云日志、性能、Prometheus等多维度可观测性数据源,提供统一监控与分析。

双视角

应用视角基于CMDB为复杂应用提供可观测性分析能力,容器视角实现Kubernetes云原生用户短、平、快容器洞察。

自动化运维

支持定时、周期和告警触发系统变更,提供批量主机下发脚本作业、批量定时开关机等运维操作。

告警降噪

提供分组、抑制和静默等告警降噪策略,在发送告警通知前按告警降噪规则对告警进行处理,从容应对海量告警风暴。

应用运维管理产品功能

统一监控大盘

AOM作为可观测性分析平台,集中管理日志、性能和指标数据,通过接入云日志、云监控、APM应用性能、prometheus指标等数据源,您可将其按照应用等维度添加至同一个仪表盘中集中呈现。

应用资源管理

您可自定义应用与资源模型多层级树型关系,即应用CMDB树,提供应用、子应用、组件和环境多级模型,管理复杂应用,支持将容器工作负载添加至CMDB树中。应用环境提供部署依赖的云资源实例,包括ECS/CCE/RDS/DCS/DMS等,您可建立与应用依赖的资源关系,实现应用与资源的联动分析、报表统计和权限管理。

容器洞察

无缝对接华为云CCE云容器引擎,基于原生Kubernetes容器和集群模型,提供可观测性分析,用户可通过Cluster、Namespace、Deployment、POD和Container进行逐步运维分析,包括Prometheus监控、日志和性能管理等;支持将Promethues服务器远程接入(Remote-Write)到AOM服务,您可通过PromQL查询原生指标并配置告警。

变更管理

当您需要批量下发作业时,可通过自定义作业脚本,批量选择应用关联的ECS主机实例,一键下发即可。AOM提供Shell、Python、Bat和PowerShell四种常用IDE编辑脚本,并支持高危命令和审批流程避免越权操作。除此之外,提供云服务的变更操作,包括启停ECS、RDS、软件部署、清理磁盘等常用变更场景。

应用运维管理AOM 常见问题

应用运维管理AOM 常见问题

  • 在主机上手工安装ICAgent后提示安装成功,但采集器管理器界面上提示状态异常?

    状态异常说明您安装的AK/SK等凭据不正确,或者使用委托安装的方式但没有设置委托导致,请参考如何通过创建委托获取AK/SK,获取AK/SK重新安装ICAgent即可。


  • 如何处理界面“ICAgent状态”为“离线”的问题?

    ICAgent安装完成后,界面“ICAgent状态”为“离线”。

    问题分析

    原因:AK/SK配置不正确或30200、30201端口未连通。

    影响:ICAgent无法正常使用。

    解决办法

    以root用户登录安装ICAgent的服务器。

    执行以下命令,检查AK/SK配置是否正确。

    配置AK/SK后,重新安装ICAgent。如果仍未安装成功,请执行4。

    查询端口连通性。


  • Agent安装失败相关类

    Agent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决?

    答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。

    Agent安装成功后,后续的心跳和注册都失败,代理机网络不通,如何解决?

    答:在目标机器上执行“telnet 代理机ip”,检查代理机和目标机器间的网络连通性。


  • 编排好的作业,能否在执行时再选择执行机,填入脚本参数等内容?

    在创建作业时,如需在每次执行作业时填入脚本参数,确认执行目标实例等,则需要配置全局参数,并在作业步骤中引用。

    操作步骤

    1、登录AOM 2.0控制台,在菜单栏单击“自动化运维”,进入“自动化运维”界面。

    2、在左侧导航栏中选择“作业管理”,单击右上角的“新建作业”。

    设置“添加全局参数”,创建参数类型为“字符串”的参数 param1, 创建参数类型为“主机列表”的参数param2,并保存。

    3、创建作业步骤,如创建脚本执行步骤时,可在“脚本参数”中通过 ${param1} 引用字符串参数,可在选择“目标实例”时选择“全局参数”,并通过下拉框选择 param2,保存作业步骤即可生效。

    4、作业创建完成后,可以在每次执行时填入 param1 的值,并选择执行目标实例,即确定 param2 的值。