检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对整体系统功能的影响减到最小。如所依赖的数据丢失时,应用程序仍能运行,但可以提供稍微陈旧的数据、替代数据,甚至没有数据,应用仍处于可预测和可恢复的状态。 避免启动依赖及循环依赖。若应用系统由于某些原因导致重启时,若依赖于其他依赖项启动或加载关键配置数据,可能会导致应用系统长时间停
SEC01-04 分隔工作负载 分隔工作负载是一种架构上进行分治的思想,通过将整个系统的工作负载分割成更小的部分,每个部分独立运行和管理,从而提高系统的安全性和可维护性。 风险等级 高 关键策略 一个企业特别是大型企业往往有多个不同类型(如生产环境、开发环境、测试环境)或不同组织
除等功能的一套完整的解决方案。性能可观测体系在此基础上突出了性能指标,通过收集和分析性能数据,可以识别系统瓶颈、优化资源分配等,找到性能优化方向。 性能监控对象:服务器、操作系统、数据库、应用程序、网络设备、云服务。 常见性能指标:包括资源CPU、内存,硬盘等,及程序的响应时间、吞吐量、并发数等。
包括网络配置、服务器管理、数据库维护等方面的知识。下面将介绍运维知识库系统的五个主要功能和优势。 丰富的知识资源:运维知识库系统收集整理了大量的运维知识和经验,涵盖了各个领域和层次的内容。用户可以通过系统进行检索,查找到相关的知识和解决方案。不仅可以解决一些常见的问题,还可以提
影响,则不需要进行备份。 风险等级 高 关键策略 识别应用系统中的所有数据。数据可以存储在多种资源中,如ECS/BMS中的卷、RDS/DDS等数据库、SFS文件系统、OBS对象存储等。 根据重要性对数据进行分类。应用系统内的不同数据具有不同的重要程度,对备份的要求也不同;如对一些
演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用无状态应用+有状态数据库/虚拟机的分层部署架构。 应用系统在IDC/其他云与华为云中各部署一套完整系统;华为云采用跨AZ部署,可以实现云内应用层跨数据中心双活;云间数据支持将它云数据实时同
SEC03-02 按需分配合适的权限 权限管理应遵循按需分配、最小授权、职责分离原则。需要根据工作职责限定人员对于关键业务系统的访问权限,以免非必要人员或非授权人员访问到关键系统和敏感数据。如需要临时权限,应仅向用户授予有限的时间段内执行特定任务的权限,并且在任务完成后,应撤销访问权限。 风险等级
业务自动恢复的功能,并能容忍虚拟机HA期间业务处理性能短暂下降或中断。 对已部署的应用系统,改造为支持高可用能力的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。 针对关键组件,检查其高可用能力,即在其故障的情况下,是否能自动故障转移,进行业务恢复。
RES08-02 依赖松耦合 系统内组件之间直接访问时,会产生紧耦合关系一个组件的状态变化会对其他组件产生直接影响,从而会导致所有组件的可用性均下降。而采用松耦合架构时,各个组件之间的依赖关系非常弱,它们可以独立地进行修改和扩展,而不影响其他组件;系统更加灵活,易于维护和升级,并且稳定性和可靠性也更强。
API及命令调用需要设计为可重试 在进行重试处理时,API及命令调用会重复发送,服务方会多次重复执行,需要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果相同,从而保证重试安全;若不支持操作的幂等性
RES13-06 压力负载测试 通过压力测试,可衡量系统的弹性扩容能力是否能满足业务要求。 风险等级 高 关键策略 参见“RES11-02 压力负载测试”章节。 父主题: RES13 过载保护
的组织可以在云上提供多个环境,典型的环境包含测试环境,预生产环境和生产环境。在生产环境部署之前,可以通过测试环境进行联调测试,验证不同团队代码之间的业务交互流程是否正确。但是测试环境和生产环境的配置不尽相同。 而预生产环境使用与生产环境相同的部署配置、安全控制、步骤和程序,在预生
凭证如临时AK/SK、通过委托获取的权限等。禁止将长期凭证硬编码到代码中,以免泄露。优先使用临时凭证调用华为云的SDK或API。 如果某些情况下不能选择临时凭证,才使用长期凭证。在此情况下,建议将长期凭证放置到代码之外的文件或由第三方托管,将长期凭证作为变量传入使用。要定期审计和
OPS02-01 进行需求管理和迭代开发 风险等级 高 关键策略 您的云上应用要达到卓越运营,从设计和开发阶段就需要保证可用性,可恢复性,同时也需要保证代码的质量。您需要评估和了解软件DFX相关要求,包括可靠性、性能、可服务性、可运维性、可交付性等要求 将监管、行业和内部合规性要求纳入需求范围
云堡垒机提供云计算安全管控的系统和组件,包含部门、用户、资源、策略、运维、审计等功能模块,集单点登录、统一资产管理、多终端访问协议、文件传输、会话协同等功能于一体。通过统一运维登录入口,基于协议正向代理技术和远程访问隔离技术,实现对服务器、云主机、数据库、应用系统等云上资源的集中管理和运维审计。
Recovery Point Objective,主要指的是业务系统所能容忍的数据丢失量 恢复时间目标 RTO Recovery Time Objective,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。 业界对韧性没有统一的定
部署:使用华为云资源编排服务 RFS、Terraform 和 Ansible 等工具来自动化工作负载开发和发布流程。通过使用基础架构即代码 (IaC) 方法,可以使用相同的自动化平台部署并优化基础架构。 测试:许多工具可用于自动化测试过程。这些工具可以减轻质量保证团队的重大负担,并确保测试标准化且可靠。
可靠性功能 集群HA GaussDB(for MySQL)服务支持主节点+只读节点的高可用架构,当主节点故障时,系统会自动切换到只读节点,只读节点提升为主节点,原来故障的主节点也会自动恢复为只读节点。 GaussDB(for MySQL)服务还支持异构容灾实例(MySQL节点),
同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。 变更信息:变更系统、变更场景、变更类型等。 变更方案:变更实施方案、回滚方案、验证方案等。 变更审批:由于变更系统相关的负责人进行审核,确保变更风险级别,若无法控制或无法预测,则建议明确变更方案或禁止变更
电子传输及完整设备支持:少量数据丢失,备用数据系统就绪,数据定时传送,备用网络就绪 数小时至2天 数小时至1天 5 实时数据传输及完整设备支持:数据丢失趋于0,备用数据系统就绪,远程数据复制,备用网络就绪 数分钟至2天 0至30分钟 6 数据零丢失和远程集群支持:数据零丢失,自动系统故障切换,远程磁盘镜像,备用网络active