应用平台 APPSTAGE-监控服务概述:功能说明

时间:2024-09-04 18:28:25

功能说明

下表介绍了监控服务具体的功能,您可以根据需要选择。

功能

功能描述

故障预防

  • 构建开箱即用标准化巡检,增强构建场景可编排、任务可定义的自动化巡检能力,帮助SRE快速分析和发现业务在现网运行的风险,可视化度量支撑业务纵横治理,驱动业务改进,从而提升业务可靠性、可运维能力、用户体验等。
  • 提供运维共性问题分享能力,避免同类问题重复出现。

故障检测

提供基于指标监控、告警、日志、事件管理的服务运行状态检测能力。

  • 指标,提供出厂标准的BaaS服务指标和自有服务纵向指标,支持业务自定义指标能力。
  • 告警,提供静态阈值和异常检测生成告警的能力,提供告警抑制、告警收敛、告警自动化分析和恢复能力。
  • 日志,构建统一的日志模型,提供兼具开箱即用和自助的日志接入能力,支持存算分离,提高日志检索效率;提供虚机、容器统一的日志采集Agent;通过采集侧清晰和汇聚指标提取等能力降低日志成本,提高日志的可靠性。
  • Events,围绕故障快速诊断,构建以服务运行状态检测为目标的运维Events中心;构建全景化的、基于运维Events的故障诊断能力;定义标准Events模型,对接不同的Events源;提供规则匹配能力和Events跟踪管理能力;支持运营事件的接入,支持生成知识库和标签管理能力。
  • 运行状况,提供基于指标、告警、事件管理和日志的服务运行状况监控能力;定义标准的服务运行状态。

故障诊断

  • 专家诊断工具,聚合Nuwa Trace、WiseDB、XPMS和WiseWAN水晶球等专业诊断能力。
  • AI辅助诊断服务,提供自适应异常检测能力和全链路智能根因诊断能力;整合专家诊断能力,持续构建ELB、SLB、基础设施侧根因诊断能力;异常检测支持5分钟快速检测,故障诊断提供一键式配置能力;支持完成告警聚合、调用链根因诊断,多维下钻分析,日志根因诊断,流量溯源诊断,事件总结算法的整合。

故障通报

以运维事件为中心,提供事件的管理、通报、War Room和自动派生工单的能力;运维通报遵从运维事件通报机制和流程,工单派生可跟踪流程和历史处理情况。

故障恢复

基于运维知识经验及自动化决策能力, 构建标准化故障场景自恢复能力,提供标准故障场景的恢复预案。

故障改进

提供故障恢复后事后分析能力。

运维数仓

构建高可靠、高性能、开放高效、全流程开放的运维数仓能力,主要包括:

  • 数据开发,构建从数据接入、聚合、清洗、分发、到存储计算的全流程开放的数据开发能力,支撑业务自助完成指标定义。
  • 构建统一运维数仓,承载指标库、日志库、链路库和事件库数据资产。
  • 数据治理 ,提供针对运维数仓的数据价值洞察分析能力,助力业务聚焦价值,降低成本。

运维RPA

提供运维场景化可编排能力的技术支持平台,满足运维巡检场景化、监控场景化、运维流程的技术支撑。

运维可视化

提供可定义的监控报表能力,提供移动办公能力。

support.huaweicloud.com/usermanual-appstage/appstage_04_0134.html