使用应用运维管理

应用运维管理

使用AOM可以实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。

应用运维管理的作用

托管&运行态

AOM可无缝对接多个上层运维服务,支持快速从应用管理与运维平台(ServiceStage)、函数工作流(FunctionGraph)和微服务引擎(Cloud Service Engine,CSE)等上层运维服务采集指标数据并实时、可视化呈现。

可观测性分析

基于四层指标体系(基础设施层指标、中间件层指标、应用层指标和业务层指标),通过事务监控、容器监控、普罗监控等功能,提供异常检测、历史数据分析、性能分析、关联性和场景化分析等可观测性分析能力。

运维自动化

提供批量磁盘清理、作业编排、脚本执行等功能,将日常运维操作服务化、标准化、自动化。

应用资源管理

通过应用管理、资源搜索等功能,将所有资源对象与应用统一管理,为AOM上层运维场景服务提供准确、及时、一致的资源配置数据。

采集管理

统一管理插件,并为AOM提供指令下发功能,如脚本下发和执行。

开放

支持原生PromQL数据上报,也可通过API等方式上报数据,并也可通过grafana查看数据,通过kafka转储数据。

什么是应用运维管理

运维遇到挑战

随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。

1、运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。

2、云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体验、如何将散落的日志进行关联分析、如何快速追踪问题。

AOM帮您解决

应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。

应用运维管理AOM 常见问题

应用运维管理AOM 常见问题

  • 新创建应用、服务等资源后,AOM界面为何不实时显示监控数据?

    当您新创建了主机、应用、组件、进程等资源后,ICAgent会以10分钟为周期进行周期性监控数据上报,AOM界面需要等待一个上报周期后方可展示相关监控数据。


  • 删除主机、工作负载等资源后,AOM界面为何仍然显示资源状态为正常?

    当您在CCE集群中删除了主机或工作负载等资源后,在AOM“主机监控”或“容器监控”界面显示资源状态仍为正常。此为正常现象,这是由于AOM“主机监控”或“容器监控”界面不会立即将资源状态置为已删除,而是会等待30分钟后将已删除的资源状态置为已删除。


  • 非华为云主机安装ICAgent后为何无数据上报?

    当您在非华为云主机上安装了ICAgent后,ICAgent上报数据需要访问如下端口,如果本地有防火墙配置,请打开如下端口的出方向否则对应数据无法上报,对应功能不可用。

    8149:上报指标数据使用

    8102:上报日志数据使用

    8923:上报APM(调用链、JVM)指标使用

    30200:ICAgent的控制端口

    30201:ICAgent的控制端口


  • 如果界面上点击升级操作失败,该怎么办?

    自定义集群场景下,如果界面上点击升级操作失败,您可以登录到vm节点上,直接执行安装命令再次安装即可。

    ICAgent的安装是覆盖式安装,无需先卸载,直接安装即可。


  • 是否可通过拷贝已安装ICAgent节点镜像的方式安装其他节点?

    非华为云主机场景下,如果通过先在一个节点上安装ICAgent,然后通过拷贝此节点镜像的方式安装其他节点,建议新节点上先卸载ICAgent再重新安装,否则可能出现不同节点间ID冲突的问题。因为ICAgent在每个节点上会自动生成唯一的ID文件,拷贝镜像后不同节点的ID文件可能会重复。