检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
减少强依赖项 系统内组件之间强依赖时,一个组件故障会对其他组件造成直接影响,影响系统可用性。 风险等级 中 关键策略 可以通过以下技术将强依赖项转换为非强依赖项: 提高关键依赖项的冗余级别,降低该关键组件不可用的可能性。 与依赖项的通信采用异步消息并支持超时重试,或发布/订阅消息功能将
如高性能计算、媒体处理、文件共享和内容管理和Web服务等。 说明: 高性能计算:主要是高带宽的需求,用于共享文件存储,比如基因测序、图片渲染这些。 如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。 如高性能计算、企业核心集群应用、企业应用系统和开发测试等。 说明: 高性能计算
这样可以保证用户能够始终处于技术领先的状态,应对各种复杂的问题。 提供多种形式的知识展示:运维知识库系统支持多种形式的知识展示,包括文字、图片、视频等。这样可以满足用户的不同需求,让用户可以更直观地理解和掌握知识。用户可以根据自己的喜好选择适合自己的知识展示形式。、 父主题: OPS08
能涉及响应时间、吞吐量、资源利用率或任何其他相关绩效指标的指标。例如响应时间的目标可能低于特定阈值,如小于2秒。 定义验收标准 将性能目标转换为可用于评估工作负载性能的特定验收标准。例如,假设响应时间的性能目标是2秒或更短。接受条件可以是工作负载的平均响应时间应小于2秒。使用这些
假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断4次,每次应急恢复决策时长为20分钟,恢复处理时长为10分钟,则每年故障中断时长为120分钟。 变更中断:假定应用支持离线更新与在线补丁,每年离线更新4次,每次更新时长30分钟,则每年更新时长为120分钟;在线补丁不影响业务。
架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备份还是离线备份,是同步复制还是异步复制。 国家标准《信息系统灾难恢复规范》(GB/T 20988-2007)中灾难恢复等级与RTO/RPO的关系如下:
可以提高用户满意度。 比如购物网站,我们可以设定页面加载时间不能超过5秒,如果页面加载时间超过设定的阈值,我们就可以采取优化措施,例如优化图片大小、减少HTTP请求等,以提高页面加载速度。 记录并公开性能目标 满足性能目标是一个持续的过程,需要开发和运营团队的共同努力。开发团队需
将VPC和本地网络连接到一个网关中,支持路由学习、动态选路以及链路切换,极大的提升网络的可扩展性及运维效率,从而保证业务的连续性。 ESW 将VPC和本地网络连接到一个网关中(二层互联),助力企业客户灵活构建大规模、高性能、高可靠的云上/云下网络。 NAT gateway 通过地址转换的方式,使多个云主机可以共享私
关键策略 使用配置管理工具进行变更:集中管理配置信息,发现和记录配置变化情况,快速识别变更影响范围。 采用自动化变更流程:帮助组织规划和自动化变更流程,如预定义变更模板、审批变更流程、自动化测试和验证等,减少人工错误和延迟。 进行变更评估和风险管理:评估变更影响范围,识别潜在风险和冲突,并采取相应的措施进行风险管理。
OPS05-03 定义变更流程 风险等级 高 关键策略 在建立标准的变更管理流程前,清晰明白变更各个流程的定义: 变更发起:在变更发起前,需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。 变更信息:变更系统、变更场景、变更类型等。
RES14-01 变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角
RES14-03 变更前数据备份 通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
提供runbook进行标准化变更 runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需涵盖变更前检查、变更操作、变更后检查及变更失败回退操作。
设计建议 变更风控衡量指标:变更风控衡量指标为变更导致事件密度和变更引入重大事件数。 变更导致事件密度定义:每月变更导致对客户造成影响的事件数与总变更数的比值。 计算公式:变更导致事件密度=变更导致对客户造成影响的事件数/总变更数。 变更引入重大事件数定义:每月变更引入对客户产生重大影响的事件次数。
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
从而降低运维成本。 广告电商等在线作业服务SLA要求较高,高峰时段明显,使用资源存在潮汐现象;大数据/转码等离线作业容错性高,计算需求大,可容忍较高的时延。为了保证在线业务的性能和稳定性,通常按波峰时需要申请资源,这样在非波峰时段就有资源浪费。将在线离线业务混合部署,可有效提升整体利用率。
OBS、SFS、FunctionGraph等服务会根据请求量自动扩展业务处理能力,用户无感知。 RDS服务最多支持5个只读副本,可在线扩展只读负载;一键规格变更实现CPU、内存扩容/缩容;在线存储容量扩容。 CCE服务支持配置自动扩容集群节点和工作负载,伸缩策略支持告警(按CPU或内存使用率触发)、定时、周期多种方式。
场景下通过产品设计降低或避免配置错误产生的影响。 RES14-01 变更防呆检查 RES14-02 自动化变更 RES14-03 变更前数据备份 RES14-04 提供runbook进行标准化变更 父主题: 变更防差错
RES15-01 自动化部署和升级 RES15-02 自动化检查 RES15-03 自动化回滚 RES15-04 灰度部署和升级 父主题: 变更防差错
为分区键;而对于资源为对象的系统,则可以使用资源ID作为分区键。 所确定的分区键,必须在所有API或命令中都能直接包含或可通过其他参数间接转换得到,以便能使用该分区键进行分区处理。 按分区键进行分区处理时,需要确保对应分区能独立处理业务,尽可能避免或减少与其他分区的交互。 确定分