检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
针对已知和未知的故障风险,通过科学的方法梳理故障模式库(树),并目的地进行快恢能力建设,一方面制定应急预案和响应机制,确保在突发事件发生时能够迅速响应和处理,另一方面定期组织演练和复盘,验证可用性架构运行情况以及团队应急响应能力。
业务系统的开发、测试和运行需要消耗一定的计算、存储、网络、安全、数据库、中间件、大数据、AI服务等资源。大型业务系统能够包含多个子系统。 IT管理系统:为了支撑业务系统的长期安全稳定运行所建立的IT支撑和管理系统,如安全运营中心、IAM和监控运维系统等。
数据层:负责系统业务数据的持久化,为上层业务逻辑的实现提供数据支持,一般是各类数据库、文件系统等。
例如,企业可以将关键业务系统部署在VPC内,通过VPCEP访问华为云的RDS实例,而不必暴露在公网中,同时可以限定只有数据库管理员张三可以通过该VPCEP访问RDS实例,进一步保证了敏感数据的安全性。关于如何管理VPCEP策略,请查看这个链接。
数据层:MySQL数据库采用双AZ主备部署实现HA;MongoDB使用副本集或Cluster集群,3AZ分布,某AZ故障,其他AZ正常提供服务。 应用层-容器集群高可用 Master高可用:容器集群Master 节点3AZ分布, 3节点(1+1+1)。
云计算、网络管道、终端设备、边缘计算、操作系统、数据库、应用程序等多个层面交织在一起,形成了一个庞大而复杂的生态系统。每个环节都有可能成为安全漏洞的切入点,增加了整体安全管理的难度。此外,安全产业的碎片化现象加剧了这种复杂性。
图1 演练效果展示 识别未知问题:演练环境可以帮助发现一些未识别到的问题,比如某系统在切换过程中,涉及的应用都已关停,但是仍然有session在连接数据库,导致数据一直无法静止,定位发现某第三方店铺在店铺关停后仍然在做一些操作等。
公共资源管理:企业内部的公共IT资源,如DNS服务器、容器镜像库、CA证书机构、云盘等由中心IT部门统一部署和管理。集中管理可以避免资源的重复建设和闲置浪费,提高资源利用率,降低采购和维护成本。 通过以上各个方面的集中管理,企业可以显著提高IT管理的效率和一致性。
选择合适的云数据库和大数据服务。 实施数据迁移和治理,维护数据质量,保障数据安全。 网络架构师 设计灵活可靠的网络架构,支持应用系统之间的连接需求。 确保网络安全和性能,满足数据传输要求。 实现网络的弹性和可扩展性,适应业务变化。 规划云网络架构,配置虚拟网络、子网、安全组等。
项目进度风险通常是云化转型项目因各种超出预期的事件或问题导致项目周期延后,如新业务发布上线、关键业务数据库故障、病毒感染等事件,都会对项目实施周期带来影响,因此项目团队应充分考虑可能遇到的问题或风险来制定项目周期。