检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的信心,减少业务运行中出现类似问题。 为了保证测试的有效性,测试环境需要与生产环境保持一致。
RES07 监控告警 应用系统需要监控,以便维护人员能快速识别系统运行现状及问题。
任何应用程序环境都需要许多基础设施组件,例如操作系统、数据库连接和存储。 开发人员必须定期设置、更新和维护基础设施,以开发、测试和部署应用程序。 手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。
按照以上评估,每年应用系统不可用的时长是36小时,满足可用设计目标要求。
集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。
应用系统可设计为使用分布在多个可用区中的资源池,并利用云服务实例本身具备或应用自身支持的跨AZ数据复制与切换能力,在多个AZ之间复制数据、负载均衡和跨AZ故障切换,从而使应用系统具备应对可用区故障的能力。
RES09 故障重试 当应用系统部署在云中,虽然云具有一定的高可用和故障自动恢复能力,但对外仍会导致短时间的故障,需要应用系统能针对这种短时间故障进行适配处理,主要是采用重试机制。
基础监控为 ECS自动上报的监控指标,操作系统监控通过在ECS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。
RDS for PostgreSQL:PostgreSQL是一个开源对象云数据库管理系统,并侧重于可扩展性和标准的符合性。RDS for PostgreSQL适用于网站业务、位置应用系统、复杂数据对象处理等场景。
根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用有状态虚拟机+有状态数据库的分层部署架构。 该应用系统在华为云单个Region部署一套完整系统,采用跨AZ部署,其中有状态虚拟机采用跨AZ主备复制,可以实现云内应用层跨数据中心主备容灾。
对于收集、处理、存储个人数据的系统,应提供数据主体限制其个人数据处理机制。 对于收集、处理、存储个人数据的系统,应提供数据主体提供的个人数据导出的机制。 父主题: SEC08 数据隐私保护
根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用无状态应用+有状态数据库的分层部署架构。 该应用系统在华为云单个Region部署一套完整系统,采用跨AZ部署,可以实现云内应用层跨数据中心双活。
对于已部署的应用系统改造为跨AZ实例的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。 针对关键组件,检查其跨AZ高可用能力,即在一个AZ故障的情况下,是否能自动故障转移到另外一个AZ,进行业务恢复。
按照以上评估,每年应用系统不可用的时长是4分钟,满足可用设计目标要求。
过载控制 系统内组件资源有限,在遇到突发流量时可能会造成资源耗尽,而导致业务受损。 RES13 过载保护 父主题: 韧性支柱
规则与策略更新:根据回顾结果,更新自动化响应规则和策略,增强系统的自适应能力。 培训与演练:定期对安全团队进行自动化响应流程的培训和演练,确保人员熟悉流程并在实际操作中高效执行。 依赖剧本实现威胁处置自动化,让顶级安全专家的经验全面落地,运筹帷幄。
在规划内存时,要预留一定量的内存空间作为操作系统的buffer cache,一般预留20%。 从HDFS中读入数据时,要考虑block解压缩后的数据膨胀。 规划一定的磁盘作为缓存空间,包括缓存数据与日志。
参考案例 通过AOM助力系统运维能力提升,降低运维成本与难度 基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 LTS助力某公司高效完成日常业务运维与等保合规 父主题: 卓越运营支柱
云架构审视 随着业务需求和技术发展的变化,系统的架构也需要不断演进和优化。通过对照卓越架构技术框架的最佳实践,架构师对工作负载的架构进行全面、系统的评估,确保架构符合最新的需求、规范,符合最新的云上最佳实践。