运维现代化

运维现代化

ITOM / ITSM + 华为云确定性运维理论与实践,保障业务稳定可靠、资源高效、安全生产、敏捷运维

ITOM / ITSM + 华为云确定性运维理论&实践

参考架构 公有云

以运维现代化使能企业数字化转型

以运维现代化使能企业数字化转型

一站式可观测性
一站式可观测性
业务挑战

企业的监控工具建设分散,关联使用难度大、分析效率低

缺乏集中统一的可观测平台,难以汇总不同层级的多类可观测数据,无法提供全局可视化和分析能力

解决方案

构筑一站式的可观测平台,纵向打通业务层、应用层、中间件层、存储层、容器层、虚机层的全栈,横向打通终端、网络、云的全链路,统一集成应用监控、容器监控、主机监控、网络监控、云服务监控、调用链分析、日志服务、告警管理等

方案价值

支撑多个场景化解决方案,比如运维期的故障处理、DevOps的应用性能诊断、用户体验分析、高可用及容灾管理等,全场景可视化、提升问题分析效率

多云资源的统一管理
多云资源的统一管理
业务挑战

企业上云过程中,同时存在传统IDC、线下线上虚拟化、云原生等多种异构环境,多云及混合云的运维场景复杂度高,多类型的异构资源无法统一管理和运维

解决方案

华为云资源、主流公有云厂商资源、线下IDC资源及主流开源组件资源基于CMDB的统一管理可视,OS补丁合规性管理、自动化的脚本作业

方案价值

支持华为云、主流公有云厂商及线下IDC等40+主流资源的纳管可视化,支持跨账号、跨Region、可编排批量的自动化资源运维

确定性的故障快速恢复
确定性的故障快速恢复
业务挑战

传统架构、虚拟化架构、微服务架构等多技术栈并存,资源&云上应用的关联关系更加复杂

无标准化故障管理:无全天候故障响应机制,无故障恢复组织能力,无故障复盘和改进机制

故障影响面无法准确评估,定界效率低,导致故障恢复全过程耗时长

解决方案

构建故障发现、恢复、改进的全生命周期故障管理

故障链路可视,故障影响可视,WarRoom作战指挥

多维数据关联,应用资源关系拓扑支撑故障定界

通过场景总结、预案总结、改进事项、演练验证形成闭环

用户可自定义构建故障模式库和响应预案

方案价值

标准化故障管理:分钟级故障响应机制;建立故障恢复组织,恢复预案100%在线管理;基于华为云故障应急防范及处置的自动化

高效恢复:标准化告警统一接入,重复工单量降低89%;通过应用资源关系拓扑实现故障分钟级定界;故障恢复预案自动执行,无人为干预

华为云SRE经验沉淀的故障演练
华为云SRE经验沉淀的故障演练
业务挑战

故障模式不完善:缺乏演练经验,故障模式不成体系,无有效故障恢复预案

演练效率低:无自动化演练手段,人工故障注入演练耗时长

安全性缺失:人工演练过程无法控制,故障影响半径不可控,演练无法有效实施

解决方案

高度自动化的PRR生产准备度评估能力(170+检查项)、多层次全覆盖丰富的故障注入武器(70+故障场景),构建了从风险识别、应急预案、故障注入到演练报告演练全流程

方案价值

业界首创FT-FMEA风险分析法,提升风险分析全面性,效率提升50%

基于华为云SRE演练经验沉淀的自动化攻击武器,客户开箱即用

演练安全可控,全过程核心指标监控,异常状态紧急终止

安全可信的运维自动化
安全可信的运维自动化
业务挑战

运维效率低:依赖传统经验运维,运维工具分散,作业流程不统一

运维难度大:缺少防呆检查,无恶意操作拦截措施,现网风险不可控

解决文案

打造跨云、跨region、跨账号的统一运维平台,实现一站式运维体验

使用业界首创OREO算法,高危命令检测成功率可达99.9%

沉淀SRE优秀实践,基于爆炸半径的自动化分批、自动熔断等风险评估能力构建安全可信的运维平台

方案价值

Operations As Code(OaC):通过场景运维自动化系统,支持服务分层解耦运维,灵活编排多种运维场景,标准化各种操作流程,实现现网运维的可控、可视、可衡量

安全可信运维:客户高危命令提前检测,保障运维作业零严重事故;基于自动化分批、自动熔断能力,保障客户业务零中断

运维现代化产品组合架构图

全生命周期使能,支撑创新,驱动增长

COC统一运维门户

面向华为云用户提供统一运维门户,典型运维场景提供端到端解决方案

泛operations云服务产品集成:面向故障管理、故障快恢集成监控/可观测云服务,面向资源管理集成应用部署、应用托管、IaC等云服务,面向高可用管理集成应用韧性、数据灾备云服务等

场景化能力灵活可组装,适配不同客户诉求

AOM统一可观测门户

统一观测入口:可观测平台发现的问题通过告警和可视化统一呈现

场景化分析:告警和可视化数据来源不同运维场景,覆盖端侧、应用、网络、云服务等场景,并提供场景化诊断分析

基础能力:提供可观测3大支柱(指标/日志/调用链)原子能力,供上层场景化分析层关联和集成使用

AOM可观测门户:集成CES-云监控、CES-网络监控、APM、LTS形成立体化可观测和统一体验

运维能力的灵活组合

COC故障管理、COC-CMDB、APM组合可提供全链路故障诊断能力

COC故障演练、故障管理、AOM、MAS - Resilience Hub、OA等架构评估和巡检能力组合可实现韧性可用性管理

COC资源管理&CMDB、故障管理、变更管理、CES组合可实现云平台层运维管理

AOM、APM、LTS等组合可实现应用运维管理

咨询流程

咨询流程

进一步了解
您的

运维现代化

需求
专家咨询