检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES01-02 应用组件多位置部署 应用组件需要部署在多个数据中心,以避免单个数据中心故障而导致业务中断。 风险等级 高 关键策略 可根据不同需求,将应用的数据和资源部署在多个位置: 应用多AZ部署:应用应尽可能部署在多个可用区,避免由于单个可用区故障而导致所有业务中断。 应用多
RES11-03 长稳测试 基于用户使用场景构建业务模型,自动化构建覆盖系统容量规格70%的业务量,持续7*24小时进行长时间负载测试以评估系统稳定性。 风险等级 高 关键策略 模拟各种业务场景进行测试。 持续自动测试。 测试结果发生偏差时自动告警,以便及时定位和处理。 父主题:
RES12-01 组建应急恢复团队 为了应对紧急故障场景,需要组建应急恢复团队,明确责任人,并进行培训。 风险等级 高 关键策略 组建应急恢复团队:其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。 应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关键依赖项运维责任人
可靠性功能 集群HA Kafka实例通过副本冗余方式实现实例容灾,当检测到leader副本故障后,快速完成副本选主,保障Kafka实例持续提供服务。 RabbitMQ集群提供镜像队列,通过镜像在其他节点同步数据。单节点宕机时,仍可通过唯一的访问地址对外提供服务。 RocketMQ使用一主两备架构
可靠性功能 数据持久性 OBS通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案,提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。其数据持久性高达99.9999999999%(12个9),可用性高达99.995%,远高于传统架构。
常见故障模式 OBS桶流量过载 检测:通过CES监控请求数、请求成功率、上传/下载带宽等流量指标。 恢复: 应用层调整批量业务,避免业务高峰期进行备份等业务; 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 应用层进行过载保护,保障优先业务的运行
SEC07 通用数据安全 SEC07-01 识别工作负载内的数据 SEC07-02 数据保护控制 SEC07-03 对数据操作实施监控 SEC07-04 静态数据的加密 SEC07-05 传输数据的加密 父主题: 数据安全与隐私保护
COST01 规划成本优化相应的组织机构和流程 COST01-01 规划企业组织,将组织结构,流程和成本管理相匹配 COST01-02 规划IT治理体系,提高管理效率 COST01-03 明确团队责任,建立和维护成本意识文化 COST01-04 指定云资源管理策略和相应的权限管理机制
相关服务和工具 华为云以Serverless形态存在的产品,存储类的对象存储服务(Object Storage Service,OBS),应用类的云应用引擎(Cloud Application Engine, CAE),容器类的云容器实例(Cloud Container Instance
相关云服务和工具 华为云大部分云服务支持创建多可用区实例,可实现在一个可用区故障时能自动快速切换,不影响实例对外提供服务,如ELB负载均衡、AS弹性伸缩、CCE容器集群、DCS实例、DMS消息服务、RDS数据库、GaussDB数据库等。 父主题: RES03 跨AZ容灾
相关云服务和工具 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。 父主题: RES12 应急恢复处理
RES14-01 变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角色的配置范围进行约束
RES14-03 变更前数据备份 通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
企业需尽早规划和思考如何使用云技术和云服务来实现安全治理的现代化,并通过实施合理的云安全策略,实现云上业务系统的安全、合规。
Flink性能优化 概述 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline
可以关注华为云新推出的云区域以及相关的服务,考虑多Region部署方案。 相关服务和工具 布局优化可以参考华为云不同Region的算力价格,尤其乌兰察布和贵阳等Region 父主题: COST08 进行架构优化
OPS06-04 规范化应用日志 日志是随时间推移发生的不可变、记录时间戳的离散事件。系统需要记录关键事件和故障,以帮助诊断问题和解决故障。 风险等级 高 关键策略 对于一个系统来说,日志是非常重要的。它可以记录在系统中发生的一切,包括成功的操作、错误的操作、警告信息等等。因此,日志记录是可观测性设计中最基本的需求之一
PERF02-02 容量规划 风险等级 中 关键策略 容量规划指根据业务需求和系统性能,包括用户数量、并发请求量、响应时间要求等,以此规划和配置系统所需的资源。容量规划对于任何组织来说都非常重要,有效的容量规划可以确保有足够的资源来满足预期的需求,同时避免浪费资源。 收集容量数据
PERF05-02 通用算法优化 风险等级 中 关键策略 算法优化是提高程序性能的关键,可以通过改进算法的设计和实现方式来提高其效率和性能。以下是一些最佳实践: 使用正确的数据结构:选择合适的数据结构可以大辐提高算法的效率。例如,使用哈希表可以快速查找元素,使用数组可以快速访问元素
PERF06-03 自动告警 风险等级 中 关键策略 通过在云监控平台配置对应的告警策略,可以及时了解资源风险,以便做出对应调整和策略。 相关云服务和工具: 优化顾问 OA 云监控服务 CES 父主题: 性能看护