检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为了应对紧急故障场景,需要组建应急恢复团队,明确责任人,并进行培训。 风险等级 高 关键策略 组建应急恢复团队:其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。 应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关键依赖项运维责任人:负责问题定位和应急恢复处理。 制
相关云服务和工具 华为云提供了一些内嵌流控保护的云服务,用户可直接配置使用: API网关 APIG:支持配置流控策略,用户可指定单位时间内的单个API、单个用户或单个APP的请求次数上限。 微服务引擎 CSE:支持限流,用户可指定一定时间内可接受的请求次数上限。 父主题: RES13 过载保护
为了构建安全、可信、合规的云上工作负载,华为云提供了大量的与安全相关的云服务。华为云客户基于Well-Architected架构的最佳实践会组合使用到这些云服务。我们的解决方案架构师在与客户进行沟通时,客户通常会提出以下疑问: 是否有一个全局性的视图可以表达构建安全工作负载的整体情况? 在
选择合适网络服务资源 选择合适的网络服务资源是一个复杂的过程,需要考虑许多因素。以下提供了一些主要因素: 评估合适网络云服务,主要考虑如下性能指标: 网络流量:评估工作负载的预期网络流量,了解数据传输需求和网络请求的频率。 带宽要求:确定工作负载的带宽要求,考虑通过网络传输和接收的数据量。 网络
业务中断,因此网络架构的高可用及容灾能力至关重要。在进行网络设计时,需要充分考虑应用系统对内和对外的网络连接、IP地址管理和域名解析等。 华为云中网络高可用主要涉及三个场景: 公有云网络:构建应用系统相关的公网网络连接的高可用,可减少由于网络连接中断而导致的业务中断。 混合云网络
性能数据采集 收集性能数据是收集指标和日志的过程,这些指标和日志提供有关工作负载性能的信息。 此数据包括数值,称为指标。 指标描述系统在特定时间点的状态。 它还包括包含组织成记录的不同类型的数据的日志。 通过收集性能数据,可以监视和分析工作负载的性能。 可以使用此信息来识别性能瓶颈、
选择合适类型的计算云服务 选择合适规格的虚拟机和容器节点 使用弹性伸缩 选择合适类型的网络云服务 选择合适类型的存储云服务 选择合适的消息队列 选择合适规格的Kafka 选择合适规格的RocketMQ 选择合适规格的RabbitMQ 选择合适的关系型数据库 选择合适的非关系型数据库
SEC01 云安全治理策略 企业安全的最终目标不会随着采用云服务而改变,但实现这些目标的方式将会改变。为了安全地操作、管理您的工作负载,您必须对安全性的各个方面进行总体策略上的考虑。企业的管理层和安全团队需要根据企业总体安全战略和业务战略制定云安全战略,并且需要在计划采用云服务时尽早考虑安全性。
基本概念 名称 名词解释 FinOps FinOps 是 Finance 和 DevOps 的合成词,强调 IT、财务和业务团队必须协作,将财务责任引入云,并在速度、成本和性能之间做权衡时做出数据驱动的明智决策。 CFM 华为云云财务管理(Cloud Financial Manageme
当系统某个单元发生故障时,如果不采取措施,故障可能会大规模扩散,从而造成整个系统失效。故障隔离技术的核心思想是将一个工作负载内的故障影响限制于有限数量的组件内,降低故障影响范围,防止产生级联故障。 通过划分故障隔离域,限制工作负载的影响,可有效进行故障隔离。 RES10-01 应用控制平面与数据平面隔离 RES10-02
性能优化工作中,需警惕“过早优化”的问题。我们的基本指导策略还是首先让系统运行起来,再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候,才应进行优化。除非用专门的工具分析瓶颈,否则很有可能是在浪费自己的时间。另外,性能优化的隐含代价会使我们的代码变得难于理解和维护,这一点也是需要权衡和关注的。
卓越运营支柱 卓越运营支柱简介 基础概念 设计原则 问题和检查项 OPS01 建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06
PERF03 性能建模 选择合适的计算资源 选择合适网络服务资源 选择合适的存储云服务 选择合适的应用中间件云服务资源 选择合适的数据库资源 父主题: 性能效率支柱
业务重试,会进一步增加系统的负荷,形成恶性循环,导致业务成功率远远低于系统的设计容量,甚至整体不可用。因此应用应该设计过载保护机制,使得在过载状态下依然可以保证一定比例设计容量的处理能力。 通过过载保护,可以缓解客户流量突增、泛洪攻击或重试风暴所造成的大量容量峰值情况,让工作负载
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
员需要维护对其他系统组件的依赖项的完整列表,包括系统内和系统外的所有依赖。 应用系统应尽可能减少关键依赖项,即减少由于该依赖项不可用而导致服务中断的组件。 RES08-01 减少强依赖项 RES08-02 依赖松耦合 RES08-03 减少被依赖项故障的影响 父主题: 故障快速恢复
RES09 故障重试 当应用系统部署在云中,虽然云具有一定的高可用和故障自动恢复能力,但对外仍会导致短时间的故障,需要应用系统能针对这种短时间故障进行适配处理,主要是采用重试机制。 云中故障需要重试的典型场景有: 实例主备切换时可能会导致连接中断,如DCS、RDS实例由于某些原因
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10
电商类应用典型部署架构(99.99%) 电子商务类应用用于外部客户,需要提供较高的可用性,并能承受组件故障,其可用性目标通常要求达到99.99%,即每年故障时间可以为52.56分钟。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断3次,每次应急恢复决策时长为10分
、存储、处理和传输过程中得到适当的保护,以防止未经授权的访问、使用或泄露。数据隐私保护旨在维护个人隐私权利,保护个人信息的机密性和完整性。 SEC08-01 明确隐私保护策略和原则 SEC08-02 主动通知数据主体 SEC08-03 数据主体的选择和同意 SEC08-04 数据收集合规性