云服务器内容精选

  • OPS01-03 规划标准化的运维流程和运维工具 风险等级 高 关键策略 流程和工具是经验的承载,通过标准化的流程,可以大幅降低在运维过程中因为个人的因素受到的影响和无序化。 通过标准化的、统一的运维工具,向运维人员提供集中、统一维护界面及清晰易上手的操作手册,方便运维人员的集中维护,提高运维效率。常见的运维流程有: 变更管理流程:适用于生产环境软、硬件的变更活动管理,减少变更导致服务意外中断或服务质量下降,确保企业的环境安全、稳定地运行,并最大化的提升系统的可用性,满足所承诺的服务水平。 告警和事件管理流程:适用于开发,生产环境故障等事件的受理、处理、升级流程,确保用户的业务及时得到响应和处理,支撑SLA的达成,需要明确定义企业各类事件的等级,以及处理的职责,规范各类事件响应和处理时限及通报机制,保障业务的安全性和稳定性。 问题和回溯流程:适用于事件复盘分析,识别故障的根因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响。通过有效的问题管理运作,促进产品质量的不断完善,提升产品的质量稳定性,降低产品现网故障数量。 产品可用度评审流程(Product Readiness Review):对于您云上业务是否在产品环境有问题的审查,以确定产品/应用已做好产品发布准备,在运维阶段是否有问题。 值得注意的是,由于云上应用迭代更新的特性,产品可用度评审不应该只是在产品刚上线时进行审查,而以后则置之不理。由于您的云上应用不断更新,这个流程应该定期/或者由重大事件(比如电商企业的促销)触发。 此外还有类似于企业IT服务的管理,账号的管理等流程,围绕这些流程,您的企业可以使用并标准化一系列云上工具,如流水线,监控报警,日志处理,运维中心。从而将您企业的运维标准化,进而迈向卓越。上文中的一些关键流程的最佳实践(变更管理,告警和事件处理,问题和回溯流程,运维可用度评审流程)也会在本白皮书的其他最近章节详述。 设计建议: 相关云服务和工具 云运维中心 COC 华为云 AOM 服务 云监控服务 CES 华为云LTS服务 应用性能管理 APM 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
  • OPS01-01 建立持续学习和改进的文化 风险等级 高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓励团队沟通和共享,例如,在您公司/组织中总结的最佳实践应该得到广泛地传播,对已有事故的分析,应该得到记录,确保相关根因都得到充分理解,尤其重要的是制定有效的标准化流程/自动化工具来降低事故再次发生的可能性和影响,这些流程和自动化工具,也需要广而告之,以向团队解释清楚缘由。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系