检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安全性支柱简介 华为将安全及隐私保护作为公司的最高纲领。安全性支柱旨在确保业务的安全、可信、合规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践。
系统内组件有可能完全故障,也有可能处于亚健康状态;亚健康是指系统整体业务未超标,但系统中局部实例业务超标。亚健康更多是个相对概念,相对历史表现的统计,或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时,系统也需要及时进行隔离或恢复处理,避免对业务造成影响。 风险等级 高 关键策略 亚健康
检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。 应用层进行过载保护,保障优先业务的运行。 连接后端GaussDB(for MySQL)失败 检测:连接失败。 恢复:
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
考虑平滑上云,上云前系统中数据库的选型已经过业务实践的检验,建议选取生态相同的关系型数据库服务进行平替,避免出现数据库层与应用层不兼容或数据库切换对业务架构中其他组件产生负面影响。 场景二:基于场景评估 如果是在云上新建业务系统或基于同数据库不同服务中选取时,建议结合业务的实际需要选取合适的数据库
内部知识管理类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用采用ECS,后端数据库基于不同业务类型可采用不同数据库,通常为RDS for MySQL;基于业务需要,通常还会使用DCS、Kafka等中间件及DDS文档数据库;为满足对应的可用性目标,建议方案如下: 类别
通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
OPS07-04 支持故障恢复流程 风险等级 高 关键策略 当现网发生故障时,既要快速恢复业务,又要降低影响,首先需要围绕故障全生命周期采取一系列控制流程,包含故障预防、故障发现、故障定位、故障恢复、故障复盘及持续改进(含故障演练),基于故障模式库,面向全流程、构建恢复能力、保证
将成本按照业务语义分配到有意义的分组。基于成本单元的成本分配结果,支持在“成本分析”页面可视。 如果需要获取明细数据与自身云管平台进行集成,实现定制化的成本和使用分析,您还可以订阅账单明细数据、OBS转储成本明细或调用客户运营能力API。比如将成本和使用明细与企业的业务运营数据结合,生成业务单位成本KPI。
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
故障扩散。 风险等级 高 关键策略 对系统内组件需要定期进行健康检查,以判断其状态是否正常。 对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器 ELB:支持健康检查,会定期向后端服务器发送请求以测试其运行状态,并根据健康检查来判断后端服
伸缩时,要求业务与数据解耦,即将系统的业务处理逻辑与数据分离、数据(状态)外置,以实现业务节点(含资源)无状态,按需快速增加或减少,从而实现系统业务处理能力的伸缩。 当节点故障或资源不足时,系统需要自动检测和扩展节点,以实现自动横向扩缩容,自动增加资源容量,解决业务处理能力不足的问题,无需人工干预。
户的实验性的工作负载,在必要时可以隐藏其功能;针对这些应用,其可用性目标通常要求不高,可达到99%,即每年中断时间可以为3.65天。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下: 故障中断:假定每年故障中断4次,每次应急恢复决策时长
关键策略 指定性能目标 从性能角度来看,最好为性能场景定义具体的、量化的、可测量的性能目标。若要设置这些目标,需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通过明确地说明性能需求来控制性能,说明要足够明确,以便可以定量
制措施削减或规避风险,保障变更成功。变更风险指现网各要素增、删、改及状态改变(如版本迭代、配置改变、节点扩缩容等)时引发的业务中断风险及变更失败可能导致的业务受损风险。 设计建议 变更风控衡量指标:变更风控衡量指标为变更导致事件密度和变更引入重大事件数。 变更导致事件密度定义:每
以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。 相关云服务和工具 LTS云日志服务:支持日志分析与数据转储 父主题: RES07 监控告警
流、降级、熔断、弹性伸缩等手段,使系统保证部分或者全部额定容量业务成功处理的控制过程;典型过载控制方法定义如下: 限流:在系统过载时主动丢弃部分业务请求。 降级:在系统过载时提供有损服务,通过减少非核心业务,降低业务质量等措施降低系统负载。 熔断:在分布式系统中,应用调用第三方资
RES13-04 支持主动扩容 当由于计划性活动而导致资源需求增加时,需要支持主动扩容,避免由于资源不足而导致业务受影响。 风险等级 高 关键策略 当发现应用系统业务需要更多资源时,可主动扩展资源以满足需求,而避免影响可用性。典型场景如产品促销前预测会有突发大流量,则可手工进行扩容处理。
化和扩展,这种技术提高数据处理的效率、降低成本并满足大规模数据存储和分析的需求。 如某导购网站日志分析业务,存储经常扩容,计算需求没有明显增长,计算资源浪费;某互联网客户推荐业务,存储容量缓慢线性增加,计算突发需求大,峰值计算资源消耗是低谷时几十倍,无法弹性使用计算资源。使用对象
整现有的组织预算和预测流程,以适应云的变化。 客户应密切关注历史消费趋势和不断变化的业务趋势,力求尽可能准确的预算规划。同时结合基于趋势(以历史支出作为输入)的预测和基于业务驱动因素(例如新业务上云或区域扩张)的预测,可以有效改进并提升企业的财务预测准确率。 相关服务和工具 使用