云架构中心-设计原则:建立持续改进的团队文化和标准化运维体系
建立持续改进的团队文化和标准化运维体系
在卓越运营中,团队文化建设至关重要。运营是一门不断改进的艺术。只有不断从已有事故中学习经验,持续学习和改进,才能最终达到卓越运营。故而,团队应该培养持续学习和改进的文化,此外,在事故发生时,应该以对事不对人的态度,思考系统的改进,而不是惩罚或者指责个人。片面指责个人或者直接处罚的做法很容易引起一系列后果,例如后续的运维团队成员由于担心处罚,会隐瞒事故或者隐藏真正的事故原因,导致后续无法切实改进系统的运维能力和流程。一线的工程师也因为担心处罚,不愿意担责,不愿意做任何系统的改变。部门、组织之间由于担心事故影响部门、组织内部成员,导致了消极应对系统中隐藏的问题或者将问题推给了其他组织,部门。最终,这种文化上的高压导致整个组织和运维流程的僵化,以及系统不能持续迭代更新之后的代码、架构腐化,最终导致无法运维的系统。 故而,文化上,惩前毖后,应重在总结经验,明确改进责任主体组织,不责怪个人。
在总结经验上,应该将相关经验进行标准化的沉淀,即将经验总结成自动化工具,流程以及建立相应的组织体系,我们称之为标准化运维体系。非标是大规模运维的头号天敌,主要表现是运维无序,团队成员依靠自身技术各自为战,处于被动响应和疲于应付的工作状态,效率低下,人为失误多,故障处理难度大。标准化运维体系是对有效经验总结后,运维活动例行化的高效管理。通过对运维活动的标准化、流程化和工具化管理,实现从无序向有序演进,达到运维操作团队运作“最佳秩序”,简化运维交付工作,降低技能依赖,提高运维效率,降低运作成本。