检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
而采用松耦合架构时,各个组件之间的依赖关系非常弱,它们可以独立地进行修改和扩展,而不影响其他组件;系统更加灵活,易于维护和升级,并且稳定性和可靠性也更强。
查改分离:通过产品界面设计将配置界面分层分级,查看与修改分离等降低人为配置失误风险。 配置校验:通过配置生效机制设计确保在配置生效前进行必要的校验,避免错误配置生效。 删除保护:在删除资源时增加保护机制,防止误删,如:删除前运行状态检查保护,资源锁定防止误删除,回收站机制等。
设计原则如下: 路由层是系统唯一的一个共享组件,因此需要尽可能的稳定,减少修改。 避免业务逻辑,保证尽可能的稳定,减少修改。 由于爆炸半径大,需要足够轻,足够简单,但是不能太简单。 某些情况,要考虑避免路由所有调用,有助于减少延迟,并减小路由层的规模。
恢复: 当CPU/内存使用高时,可根据业务情况,手工修改代理规格或增加代理数量以扩展资源。 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用率高时,可根据业务情况,变更规格以支持更大带宽。 应用层进行过载保护,保障优先业务的运行。
相关云服务和工具 云运维中心 COC: 作业管理:提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能,用户可以通过自定义作业在目标实例(目前支持ECS)上执行操作。
SEC07-03 对数据操作实施监控 根据数据的分级分类,应对数据的修改、批量操作等行为实施限制措施或建立监控机制。 风险等级 高 关键策略 对数据的修改、批量操作等行为实施限制措施或建立监控机制。 使用数据库安全服务DBSS对数据库行为进行审计。
接入侧主Region与灾备Region各自申请外部IP,并通过DNS域名解析到主Region,在主Region故障时,将DNS域名对应IP地址修改为灾备Region中的外部IP。 申请MAS多活高可用服务,进行容灾编排,以便在灾难场景快速主备切换恢复业务。
金丝雀部署(灰度发布)是将少量客户引导到新版本的做法,通常在单个服务实例(Canary)上运行;当检查到任何行为更改或错误时,可以将Canary中的流量删除,并将用户发回到以前的版本。如果部署成功,则可以继续以期望的速度进行部署,同时监控更改以便发现错误,直到所有部署完成。
RES01 冗余 RES01-01 应用组件高可用部署 RES01-02 应用组件多位置部署 RES01-03 云服务器反亲和 父主题: 高可用设计
RES02 备份 对于应用系统中的重要数据,需要提供备份功能,以便在病毒入侵、人为误删除、软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份
RES02-02 自动数据备份 对于需要备份的数据,可根据该数据的RPO指标要求,设置定期备份策略进行自动备份。 风险等级 高 关键策略 使用华为云备份服务或第三方备份软件对数据进行备份,并可根据RPO要求设置自动备份频率。CBR云备份服务可对ECS/BMS/EVS/SFS Turbo
RES13-04 支持主动扩容 当由于计划性活动而导致资源需求增加时,需要支持主动扩容,避免由于资源不足而导致业务受影响。 风险等级 高 关键策略 当发现应用系统业务需要更多资源时,可主动扩展资源以满足需求,而避免影响可用性。典型场景如产品促销前预测会有突发大流量,则可手工进行扩容处理
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响
RES11-04 灾难演练 通过容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常作为专项开展
RES12-02 制定应急预案 针对常见问题现象,提供标准化的应急恢复指导,以便在出现问题后,可以有序的完成恢复操作,避免操作失误。 风险等级 高 关键策略 需要覆盖常用典型场景。 应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施
RES13-06 压力负载测试 通过压力测试,可衡量系统的弹性扩容能力是否能满足业务要求。 风险等级 高 关键策略 参见“RES11-02 压力负载测试”章节。 父主题: RES13 过载保护
您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用进行全方位监控,帮助您快速定位出错接口和慢接口、重现调用参数、发现系统瓶颈,从而大幅提升线上问题诊断的效率。
RES06-01 故障模式分析 故障模式分析是在系统分析和设计过程,通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部署在华为云中时
RES01-02 应用组件多位置部署 应用组件需要部署在多个数据中心,以避免单个数据中心故障而导致业务中断。 风险等级 高 关键策略 可根据不同需求,将应用的数据和资源部署在多个位置: 应用多AZ部署:应用应尽可能部署在多个可用区,避免由于单个可用区故障而导致所有业务中断。 应用多
RES10-02 应用系统多位置部署 通过将应用系统部署在多个位置,可以避免由于一个位置的基础设施故障而导致系统不可用。 风险等级 高 关键策略 将应用系统的数据和资源部署在多个AZ,可避免单个AZ故障影响业务。 对于可用性要求较高的应用系统,可部署在多个Region,避免单个Region