9月19日,华为全联接大会2024举办期间,在“AI赋能应用现代化,加速软件生产力跃升”为主题的论坛上,华为云发布全栈可观测平台 AOM ,以AI赋能应用运维可观测,提升企业应用可用性与稳定性。
该平台发布标志着华为云在推动 数字化 转型和智能化运维领域的又一重大突破,全栈可观测平台的推出不仅为企业提供了更加全面和深入的系统监控和数据分析能力,还通过集成先进的人工智能技术,实现了对复杂应用环境的实时优化和问题预警。
应用运维管理 (Application Operations Management,简称AOM)是云上应用一站式可观测性分析平台,基于四层指标体系(业务层指标、应用层指标、中间件层指标、基础设施层),提供指标、日志、调用链3类数据关联分析、根因分析、场景化分析等可观测分析能力,全面掌握应用、资源实时运行状况,及时发现故障。
华为云AOM主要能力
全场景数据接入,统一监控大盘与告警管理:统一接入中心实现4层指标体系数据上报,提供可视化图表统一汇总呈现指标、日志信息,统一告警规则配置、开箱即用告警模板以及智能告警降噪。
全链路调用链分析,智能化代码级剖析Profiling:支持调用链路时序图,直观展示Web端、App端到后端服务、 数据库 、中间件链路关系,用户一站式定位故障链路,快速发现消耗资源的代码,定位CPU、内存、时延性能问题。
容器监控体系洞察:支持集群维度、核心插件、节点、负载、外部5大检测维度、16个巡检场景、49个检测项诊断,实施掌握容器健康状态。
海量日志引擎:自主创新的高性能搜索引擎,存算分离架构,多租户共享海量弹性计算资源,实现百亿级日志3秒内返回搜索结果,提供日志结构化解析组合编排、高性能SQL分析、一站式日志加工等能力。
华为云PaaS服务产品部部长徐峰对AIOps领域的发展做了系统性的规划与展望,未来AIOps将是小模型与大模型结合使用,小模型聚焦故障感知定位解决量化确定性问题,大模型面向故障修复决策提升运维辅助人效,从AI故障感知、AI故障定位、AI生成故障修复建议三个方面构筑未来智能可观测产品力。
故障感知:通过多维指标智能聚合与故障预测算法,面向AnyStack与AnyWhere数据实时分析,实现应用故障1分钟及时发现。
故障定位:通过告警相关性分析、水平&垂直关联分析能力实现场景化根因分析,5分钟完成故障定位诊断。
故障决策与修复:生成式算法结合华为SRE运维经验和案例库,覆盖应用到资源各类场景问题的 解决方案 ,提供精准修复建议,10分钟完成应用故障修复闭环。
会上,上海松鼠云上人工智能技术有限公司(简称松鼠AI)技术VP刘海涛分享了松鼠AI基于华为云AOM在智慧教育领域的实践。
松鼠AI基于华为云AOM构建Ai智适应学习系统一站式可观测性分析能力,融合指标、日志、调用链3类数据,实时掌握应用健康状态,通过数据关联、根因诊断、场景化分析等可观测能力,做到应用运维问题早发现早消除,全面保证Ai智适应学习系统的健康、平稳运转。
未来,华为云应用运维管理AOM将持续聚焦可观测领域,利用AI赋能应用智能可观测,推动数字化转型和智能化升级,面向用户提供更高效、精准的监控和分析解决方案,通过智能化的数据处理和分析能力,为客户提供全方位的系统洞察,在复杂的业务环境中快速识别潜在风险,优化操作流程,提升业务效益,显著降低运维成本。