检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEC05-03 减少资源的攻击面 通过加固操作系统、减少未使用的组件和外部服务,以及使用工具加强云安全,减少资源的攻击面。 风险等级 高 关键策略 强化操作系统和减少组件:通过减少未使用的组件、库和外部服务,可以缩小系统在意外访问下的危险。这包括操作系统程序包、应用程序以及代码中的外部软件模块。
现、故障定位、故障恢复、故障复盘及持续改进(含故障演练),基于故障模式库,面向全流程、构建恢复能力、保证平均恢复时长(MTTR)的长效收敛,实现故障的快速恢复。 设计建议 父主题: OPS07 进行故障分析和管理
灾难场景通常采用RTO和RPO目标定义: 恢复时间目标RTO:指灾难发生后应用不可用的最长时间。RTO决定了应用容灾整体架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备份还是离线备份,是同步复制还是异步复制。
n故障而导致所有业务中断。 在多AZ部署能满足需求的情况下,应优先使用多AZ部署。大多数工作负载的可用性目标都可通过在单个Region内多 AZ 部署来实现,只有工作负载具有极高的可用性要求或者其他业务目标时,才考虑多Region架构。 父主题: RES01 冗余
算法优化是提高程序性能的关键,可以通过改进算法的设计和实现方式来提高其效率和性能。以下是一些最佳实践: 使用正确的数据结构:选择合适的数据结构可以大辐提高算法的效率。例如,使用哈希表可以快速查找元素,使用数组可以快速访问元素。 减少内存分配:内存分配是一个耗时的操作。可以通过预先分
据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常作为专项开展。容灾演练可以帮助企业更好的验证RPO、RTO指标,及时发现
区等。最重要的边界是公共网络(互联网)与应用程序之间的边界,这个边界是您的工作负载的第一道防线。华为云的VPC和子网都可以作为每个网络分区的边界。 VPC划分:为VPC指定合适的CIDR范围,以确定VPC的IP地址空间。 子网划分:在VPC中,创建多个子网,并将不同的资源部署在不同的子网中。
关键策略 通过建立的分层性能模型,判断系统是否会出现性能劣化的情况。当出现劣化事件时,需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。
关键策略 不同的业务系统重要性不一样,针对应用系统内的各种业务,需要明确其重要性及对应的RPO/RTO指标要求。比如对于核心业务,通常需要保障业务的连续性,允许业务中断的时间会比较少,从而需要保障故障场景下的业务快速恢复,可采用双活/多活容灾;对于重要业务,允许一定的业务中断时间,
VM中使用一个内部队列,这会消耗一定的资源。大多数场景下,使用最多5个优先级就够了。 如何确定消息大小 如何选择发往RabbitMQ的消息长度是一个常见问题。记住,每秒钟发送的消息数比消息大小更容易达到瓶颈。虽然发送大消息不是一个好的做法,但是发送多条小的消息也可能不是一个好的选择。更好的方法是生产者把
应用系统多位置部署 通过将应用系统部署在多个位置,可以避免由于一个位置的基础设施故障而导致系统不可用。 风险等级 高 关键策略 将应用系统的数据和资源部署在多个AZ,可避免单个AZ故障影响业务。 对于可用性要求较高的应用系统,可部署在多个Region,避免单个Region故障影响业务。
定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。
包括事件发生的时间、地点、责任人、事件的过程、原因、影响等。 组建复盘团队:邀请相关的团队成员和利益相关者参与复盘过程。确保涵盖各个关键领域的代表,如技术人员、安全运营人员等。 分析根本原因:通过结果追溯分析事件的根本原因,连续问几个为什么,找出导致事件发生的最根本的问题。这有助于避免将来类似事件的发生。
华为将安全及隐私保护作为公司的最高纲领。安全性支柱旨在确保业务的安全、可信、合规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践。 安全性是现代应用程序的重要维
源,以满足系统的性能要求。 计算资源:根据预测的需求,计算所需的CPU、GPU、内存等计算资源,并根据实际情况进行选择和配置。 存储资源:根据预测的需求,计算所需的存储空间,例如需要存储大量的数据,可能需要选择分布式存储系统。 网络带宽:根据预测的需求,计算所需的网络带宽,例如需
PERF03-06 选择合适的消息队列 风险等级 中 关键策略 三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰去谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:兼
国家已启动“东数西算”工程,将东部发达地区的数据,传输到西部算力资源丰富的地区进行运算、存储。西部数据中心综合成本有明显优势,低PUE低能耗,如贵阳资源价格比广州上海等区域低10%左右。企业可将灾备、离线分析、转码、运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。 可以关注华为云新推出的云区域以及相关的服务,考虑多Region部署方案。
弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,保障业务受到的影响最小,该过程会导致云服务器重启。详见“物理机故障时,弹性云服务器是否会自动恢复”。 当检测到弹性云服务所在的硬件出现亚健康时,系统会自动化将弹性云服务器热迁移到其他物理服务器上继续运行
用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。 可参考CES的最佳实践,https://support.huaweicloud.com/be
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。