云采用框架-确定性运维

时间:2025-01-21 11:51:15

确定性运维

确定性运维是华为云基于自身多年的云服务运维经验沉淀的一套运维理念、方法论和最佳实践,可以帮助企业在云上高效运维自建和采购的业务系统,确保这些业务系统在云上能够持续高效稳定运行。

确定性运维旨在构建可防、可控、可治的运维管理体系。通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障。同时也要有技术手段对可能发生的故障进行管理,将故障间隔、故障影响范围及故障恢复时间做到可防、可控、可治。总而言之,要把数字化转型和业务快速发展带来的“不确定性”通过运维变成“确定性”。

在确定性运维的推动下,企业可以实现资源的高效利用。通过合理的资源规划、分配和调度,企业能够避免资源的浪费和闲置,提高资源的利用率。此外,确定性运维还能够通过自动化、智能化的手段,降低运维成本,提高运维效率,为企业节省大量的人力和物力。

构建确定性运维体系是一个系统性和综合性的工程,需要从质量文化、高可用架构、动态风险治理以及智能运维工具这四个方面全方位入手,如下图所示。

图1 确定性运维框架
  • 质量文化是基础

    质量文化是确定性运维的基石。一个注重质量的文化能够激发团队成员对运维工作的责任感和使命感,从而确保工作的精细化和标准化。以下是一些构建高质量文化的最佳实践:

    • 自上而下,从最高层面强调和践行质量的重要性,并将其纳入核心价值观。
    • 构筑开发与运维团队共同的质量目标和方法。
    • 在运维团队开展组织变革,不断提升组织能力,牵引用软件工程的方法解决问题,从“消防员”向“建构师”转型。
  • 高可用架构是前提

    高可用架构是确定性的前提,通过设计合理的架构,可以降低系统故障的风险,缩短故障恢复的时长,并且控制故障的影响范围,高可用架构的设计与落地需要关注如下三点:

    • 瞄准SLO 的目标,运用科学的方法进行架构的设计,对可用性架构的选择以及落地时间进行管理。
    • 在产品规划设计、上线运行阶段,给运维团队授予相应的责权利,对开发和商用计划有所制约,确保可用性需求落地。
    • 在产品运行维护期间,有计划地对高可用设计进行验证,以确保系统符合设计要求。
  • 动态风险治理是保障

    动态风险治理是应对不确定性和突发事件的重要保障手段。其本质也是对变更、故障模式、业务运行数据的识别开展全生命周期的主动运维和能力构建:

    • 针对变更作业的风险,开展全面的能力建设,包括版本发布架构体系建设、账号权限管理、自动化变更能力建设等。
    • 针对已知和未知的故障风险,通过科学的方法梳理故障模式库(树),并目的地进行快恢能力建设,一方面制定应急预案和响应机制,确保在突发事件发生时能够迅速响应和处理,另一方面定期组织演练和复盘,验证可用性架构运行情况以及团队应急响应能力。
    • 业务运行态数据的智能运营,是指导团队开展工作持续改进的核心基础能力,需要构建一套实时的采集以及数据运营系统,以支撑业务决策。
  • 智能运维是未来

    智能运维工具能够提高运维工作的效率和质量,降低人力成本。尤其是AI 时代,通过引入自动化、智能化等技术手段,团队可以更加高效地管理和维护系统,有几个原则:

    • 选择合适的工具和技术,确保其与业务需求和技术栈相匹配,如自动化部署、故障预测、智能定界定位等。
    • 将工具与现有系统进行整合,根据实际需求进行定制和优化,以满足特定的运维需求。
    • 关注新兴技术和发展趋势,不断更新和升级智能运维工具,提升运维水平。

    关于确定性运维的详细实践指南,请参考华为云发布的《确定性运维白皮书--稳定可靠篇2.0》

support.huaweicloud.com/usermanual-caf/caf_01_0199.html