检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES04 跨Region/跨云容灾 为了预防区域级灾难发生,或业务跨云容灾需求,需要构建容灾系统提供较为完善的数据保护与灾难恢复能力,以便在站点级灾难发生时,可以保证生产系统的数据尽可能少的丢失,业务系统能在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。 对
应用系统需要收集日志,在必要时对日志进行统计分析,设置告警规则触发告警,统计分析的内容可以是统计一定时间段内某些关键字出现的次数。 风险等级 中 关键策略 日志关键字与出现次数阈值需要合理设置,以免监控信息不正确。 日志信息(如关键字或出现频率)发生变化时,需要及时更新告警规则。 相关云服务和工具 云日志服务
监控和自动切换;此外DNS自身也需要冗余容错,避免由于DNS故障而导致域名解析失败,业务中断。 混合云组网场景链路冗余与倒换方案: 双DC专线冗余:用户数据中心与华为云VPC之间采用两条DC专线互通;其中两条物理专线接入同区域的两个华为云专线接入点,并通过BGP路由协议接入同一个
城容灾能力。 接入层(外部GSLB):通过外部GSLB进行域名解析与流量负载均衡,在单个AZ故障时自动将业务流量切换到另一AZ。 应用层(负载均衡器、应用软件及容器):对于无状态应用,通过负载均衡器进行故障检测与负载均衡,并可通过容器进行弹性伸缩。 中间件层:每个可用区各部署一套DCS、DMS
要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果相同,从而保证重试安全;若不支持操作的幂等性,会导致客户端难以重试或重试的处理更复杂。 父主题: RES09 故障重试
支持事件管理 风险等级 高 关键策略 事件(incidents)是需要干预的事情。当发生事故(incidents)时,通过流程来处理。如何与团队沟通活动的状态?谁负责响应处置?使用哪些工具来缓解该事件?这些都是流程中需要回答的问题,并需要获得可靠的响应过程。流程必须中心化,并且可
安全措施有缺陷。 威胁:利用脆弱性而带来的任何潜在危险。 风险:攻击者利用脆弱性的可能性以及相应的业务影响;风险将脆弱性、威胁和利用可能性与造成的业务影响联系在一起。 资产: 任何对组织有价值的信息或资源,是安全策略保护的对象。 处置措施:包括安全角度的消减措施和韧性角度的增强措
是为了利用云上服务使得生产工作更聚焦到应用层,上云前系统中数据库的选型已经过业务实践的检验,基于对兼容性的考量(避免迁移上云后,数据库层与应用层不兼容),上云过程中采用云上同样生态的数据库进行平替,是首要的决策依据。 可迁移性:针对数据库上云迁移,解决方案要具备平滑迁移的能力;
相关云服务和工具 云运维中心 COC: 作业管理:提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能,用户可以通过自定义作业在目标实例(目前支持ECS)上执行操作。 变更中心:支持承载变更流程管理业务,以变更工单模式,从变更的申请、审批、执行三个
根据事件的优先级进行分类。 隔离与控制:自动隔离受感染的设备或网络段,防止威胁扩散。 自动修复:对于已知的漏洞或问题,自动化执行补丁安装、配置更改或清除恶意软件。 取证与记录:自动收集与事件相关的日志、网络包和其他证据,保存为后续分析使用。 通知与沟通:向指定的安全团队成员发送警
密钥的安全管理对于整个工作负载的安全性至关重要。如果使用不恰当的密钥管理方式,强密码算法也无法保证系统的安全。密钥的安全管理包括密钥的生成、传输、使用、存储、更新、备份与恢复、销毁等完整的生命周期流程。 风险等级 高 关键策略 生成密钥: 分层管理密钥。最少把密钥分为两层,即:根密钥和工作密钥,根密钥为工作密钥提供加密保护。
关键策略 在公司范围内构建统一身份管理系统,集中存储用户身份信息。 统一身份管理系统与私有云、公有云平台的IAM系统进行身份联邦,统一身份管理系统中的用户身份可以同时访问私有云和公有云平台。 统一身份管理系统与公司的HR流程结合,当员工入职、调岗和离职时可以触发用户的创建、变更和删除。 针对Landing
从分区键对应的旧位置拷贝数据到新位置。 更新Grid路由层路由,使分区键重定向到新位置。 从分区键旧位置删除数据。 Grid代码部署与更新: Grid代码部署可与跨AZ、跨Region结合,通过多层隔离,减少故障影响范围。 Grid业务单元代码更新时,建议采用类似金丝雀部署(灰度发布)的
强化操作系统和减少组件:通过减少未使用的组件、库和外部服务,可以缩小系统在意外访问下的危险。这包括操作系统程序包、应用程序以及代码中的外部软件模块。 创建安全的虚拟机镜像或者容器镜像。 使用第三方工具进行安全性分析:使用第三方静态代码分析工具和依赖关系检查工具来识别常见的安全问题和漏洞,确保代码的安全性和合规性。
署之前,可以通过测试环境进行联调测试,验证不同团队代码之间的业务交互流程是否正确。但是测试环境和生产环境的配置不尽相同。 而预生产环境使用与生产环境相同的部署配置、安全控制、步骤和程序,在预生产环境中测试发布过程。验证所有部署步骤是否按预期完成,如检查依数据、配置和服务。通过集成
故障场景的命中率:分析故障场景中,真实发生的比率。 应急预案的质量:用于度量应急预案有效性和执行效率。 风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。 风险消减个数、等级与类型:风险降级的数量,风险消减的数量,增加预案的数量,改进监控项的数量。 故障恢复时长提升率:对应故
监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。 相关云服务和工具 LTS云日志服务:支持日志分析与数据转储 父主题: RES07 监控告警
VPC、VPCEP 企业路由器 ER 云连接 CC 云防火墙 CFW:提供云上互联网边界和VPC边界的防护,包括实时入侵检测与防御、全局统一访问控制、全流量分析可视化、日志审计与溯源分析等,同时支持按需弹性扩容、AI提升智能防御能力、灵活扩展满足云上业务的变化和扩张需求,极简应用让用户快速灵
指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标准并进行发布,各个业务系统架构师在设计时遵循这套标准,这样可以保证能力能够从设计态开始,包括运行态、高可用架构等场景中得到应用。
合考虑云资源成本,研发成本,运营管理成本(如托管服务 vs 非托管云服务)来计算总拥有成本。审核工作量应该体现可能带来的好处(例如分析时间与应用成本成正比)以及相应的成本是否带来正向的营收。 回顾和审核的频率应该综合考虑多种因素,包括成本优化在企业或者组织中的重要性,测试和验证成