检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
拥有超过3200万注册会员、超过1000家企业客户及合作伙伴。 客户痛点: 端侧采集工具不统一,不支持自定义域名上报,问题定位复杂 Web、IOS、安卓、百度小程序、微信小程序等多类端侧日志无法使用同一家厂商工具采集,问题定位分析时,需在多个工具间需来回切换,增加了定位复杂度,
该应用系统在华为云一个Region两个AZ中各部署一套,提供同城容灾能力。 接入层(外部GSLB):通过外部GSLB进行域名解析与流量负载均衡,在单个AZ故障时自动将业务流量切换到另一AZ。 应用层(负载均衡器、应用软件及容器):对于无状态应用,通过负载均衡器进行故障检测与负载均衡,并可通过容器进行弹性伸缩。
交付性等要求 将监管、行业和内部合规性要求纳入需求范围中,同时在需求排序的时候,给予这些需求足够的时间和重视。 同时从可维护性来看,较之于一次性颠覆性的大范围应用/软件更新,小步快跑,持续迭代地进行云上软件的更新更有利于运维,因为一则小范围的云上软件更新和部署更不容易引起大范围事
99.95%,即每年故障时长可以为4.38小时。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断4次,每次应急恢复决策时长为20分钟,恢复处理时长为10分钟,则每年故障中断时长为120分钟。 变更中断:假定应用支持离线更新与在线补丁,每年离线更新4次,每次更新
网络链路冗余:网络连接需要支持多路径,以实现高可用能力,以避免在一条网络路径中断的情况下,业务能切换到其他路径继续通信。 网络链路快速倒换:需要定期检查网络链路的连通性,但检测到失败时需要尽快切换到正常路径。 公有云组网场景可通过多EIP 弹性IP及DNS域名解析实现网络连接的高可用;对可用性要求较高的场景,需要支持
相同流量模型的业务,可共享网络带宽,带宽需要满足所有共享业务的需求 不同流量模型的业务,为了避免相互干扰,建议使用各自独立的共享带宽实例 不同特性的业务,建议使用各自独立的域名隔离。 父主题: RES05 网络高可用
通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。 演练期间可检查灾难恢复计划执行顺序及恢复时间并进行优化。
RES12-03 定期应急恢复演练 定期测试突发事件应急恢复处理,以便在出现问题后能进行高效的恢复处理。 风险等级 高 关键策略 每年至少进行一次应急恢复演练;通过演练可提升操作人员的熟练程度。 演练期间严格按照应急预案进行恢复,以检验应急预案的准确性。 演练结束后需要对恢复过程进行回溯,并优化应急预案。
SEC01-03 梳理资产清单 梳理工作负载涉及的服务器、IP地址、域名、数据库、证书等全量云资源的资产清单,给资源打上标签,从而在出现安全事件时,能快速定位到有安全风险的资源。 风险等级 高 关键策略 设计态与运行态一致性:对照设计态的架构图、架构文档实施云服务资源。工作负载运行时的架构始终保持与设计态一致。
务能力;针对RDS,可根据RDS负载监控情况,在维护时段更改实例类型或增加只读节点。 变更防差错 软件更新采用离线更新,在位替换,根据runbook进行应用的自动部署与回滚。每1~2个月更新一次软件。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和
999%,即每年故障时间可以为5.26分钟。 假定故障中断与变更中断的时长分别如下: 故障中断:由于要求的故障中断时间很短,要求尽可能自动恢复,没有手动触发的恢复,假定每年故障中断4次,每次自动恢复时长为1分钟,则每年故障中断时长为4分钟。 变更中断:假定应用支持金丝雀部署或蓝绿部署,并自动完成,软件更新不中断业务。
关键策略 使用配置管理工具进行变更:集中管理配置信息,发现和记录配置变化情况,快速识别变更影响范围。 采用自动化变更流程:帮助组织规划和自动化变更流程,如预定义变更模板、审批变更流程、自动化测试和验证等,减少人工错误和延迟。 进行变更评估和风险管理:评估变更影响范围,识别潜在风险和冲突,并采取相应的措施进行风险管理。
Kafka性能优化 优化客户端配置 生产者配置建议 可参考配置建议。 消费者配置建议 参数 推荐值 说明 max.poll.records 500 消费者一次能消费到的最大消息数量,默认为500,如果每条消息处理时间较长,建议调小该值,确保在max.poll.interval.ms时间内能完成这一批消息的处理。
接入侧主Region与灾备Region各自申请外部IP,并通过DNS域名解析到主Region,在主Region故障时,将DNS域名对应IP地址修改为灾备Region中的外部IP。 申请MAS多活高可用服务,进行容灾编排,以便在灾难场景快速主备切换恢复业务。 相关云服务和工具 云备份 CBR:支持跨区域复制与恢复
实时同步到华为云,实现双活容灾,在第三方云故障的情况下能快速容灾切换到华为云。 接入层(外部GSLB、API网关):通过外部GSLB进行域名解析与流量负载均衡,两朵云同时提供服务,在第三方云故障时自动将业务流量切换到华为云;API网关支持流量纠正,以便将业务路由到正确单元。 应用
OPS05-03 定义变更流程 风险等级 高 关键策略 在建立标准的变更管理流程前,清晰明白变更各个流程的定义: 变更发起:在变更发起前,需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。 变更信息:变更系统、变更场景、变更类型等。
RES14-01 变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角
RES14-03 变更前数据备份 通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
提供runbook进行标准化变更 runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需涵盖变更前检查、变更操作、变更后检查及变更失败回退操作。
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属