检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用本身的部署形态 上云时,业务的迁移方式(例如:业务是简单的迁移上云,还是本身要做改造) 如果业务本身在IDC部署模式是虚拟机部署,应用系统比较老旧,业务本身也没有改造的计划,建议按照原来IDC的部署模式,采用ECS或者BMS的形式进行应用部署,以满足应用和业务本身的性能诉求。
RES11-01 混沌测试 混沌工程(Chaos Engineering)是通过故障注入的方式,触发或模拟实际故障,验证系统的稳定性和容错保护能力。 风险等级 高 关键策略 在真实环境中测试。 作为CI/CD管道的一部分例行执行。 主动注入故障,以便在问题发生前提前发现并解决问题。
实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。 制定恢复策略,逐步恢复受影响服务,确保数据和系统一致性,进行测试确保所有系统恢复正常运作。 进行事件后分析,总结事
韧性支柱简介 韧性支柱旨在帮助企业构建具有高可用的应用系统架构,提高工作负载的韧性,使之在面对各种异常场景时仍能提供和维持可接受的服务水平。韧性支柱结合了华为公司韧性设计经验和业界最佳实践,总结并提炼出一系列设计原则与最佳实践,用以帮助企业利用华为云平台基础设施达到高可用、面向各
)落地;同时助力打造确定性运维体系,让研发团队将更多时间用在构建让客户受益的新功能上,减少用于维护和处理突发事件的时间,从而带来运行良好的系统和平衡的工作负载,尤其是卓越的客户体验。卓越运营支柱融合了这些优秀实践,聚焦如何正确地构建软件,高效地运维软件,持续提供卓越的客户体验,包
OPS04-03 基础设施即代码 基础设施即代码(IaC)是指使用代码而不是手动流程来管控基础设施的能力。 应用程序环境都需要许多基础设施组件,例如操作系统、数据库连接和存储。 开发人员必须定期设置、更新和维护基础设施,以开发、测试和部署应用程序。 手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。
安全性支柱旨在确保业务的安全、可信、合规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践。 安全性是现代应用程序的重要维度,需要成体系地考
PERF01-02 应用性能编程规范 风险等级 高 关键策略 性能效率是一个系统性的工程,需要综合考虑从架构、设计、编码,到编译、运行的全过程,特别是在编码实现层面,有很多编码技巧,在不影响可读性、可维护性的前提下,提升软件性能。结合编程语言,将高性能编码最佳实践内建的规范中,将
数据中心综合成本有明显优势,低PUE低能耗,如贵阳资源价格比广州上海等区域低10%左右。企业可将灾备、离线分析、转码、运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。 可以关注华为云新推出的云区域以及相关的服务,考虑多Region部署方案。 相关服务和工具 布局优化可
OPS01-01 建立持续学习和改进的文化 风险等级 高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓
处理活动符合法律规定并尊重数据主体的权利。 风险等级 高 关键策略 使用个人数据前必须获取数据主体授权,使用范围及方法不能超出收集目的。 系统应将隐私保护的功能默认设置成保护状态。 使用个人数据过程中,必须保证个人数据的安全,如记录运营运维阶段对个人数据增删改、批量导出等操作。
定义响应的优先级,确保重要事件得到优先处理。 持续监控:利用SIEM(安全信息和事件管理)、UEBA(用户和实体行为分析)等工具,对网络、系统、应用程序和用户活动进行实时监控。 智能警报:当检测到符合预定义触发条件的事件时,自动生成警报,并根据事件的优先级进行分类。 隔离与控制:
峰值及异常负载等状态下对系统的各项性能指标进行测试的活动,它关注运行系统在特定负载下的性能,可帮助你评估系统负载在各种方案中的功能,涉及系统在负载下的响应时间、吞吐量、资源利用率和稳定性,以帮助确保系统性能满足基线要求,有助于提早发现性能问题,防止随着系统运行可能出现的性能裂化小
配合共享云硬盘,可以构建AZ内集群或HA关键应用。一块共享云硬盘最多可同时挂载至16台BMS。并需要搭建共享文件系统或类似的集群管理系统,例如Windows MSCS集群、Veritas VCS集群和CFS集群等。 详见“共享云硬盘及使用方法”。 负载均衡 配合弹性负载均衡ELB服务,可以实现多BMS实例的负载均衡。
关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进行有针对性的重试;对于临时性故障,如错误码指示为系统繁忙时,可等待一段时间后重试,否则无需重试。 请求SDK中内置了消息重试时,客户端无需重复重试。 多层业务栈一般只在源端重试,避免逐层重试。
原地升级和回滚时,升级和回滚过程中业务将会中断,中断时长受限于升级和回滚的时长,对业务影响比较大;而采用灰度部署和升级,可减少升级和回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,逐步引入新版本部署范围或切换用户流量,配合自动回退以降低部署差错导致业务中断的风险。
数据持久度 数据持久度是指数据不丢失的概率,即存储在预计周期内不出现数据丢失的概率,可以用于度量一个存储系统的可靠性。其只表示数据是否丢失的概率,不体现数据丢失多少;数据持久度的预计周期,一般按一年进行预计。 影响存储数据持久度的主要因子有:冗余数、磁盘失效率与数据修复时间。其中
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
出现问题后可以及时恢复。 根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用有状态虚拟机+有状态数据库的分层部署架构。 该应用系统在华为云单个Region部署一套完整系统,采用跨AZ部署,其中有状态虚拟机采用跨AZ主备复制,可以实现云内应用层跨数据中心主备容灾。
恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力 监控告警 应用系统故障后的检测和告警能力 弹性扩缩容 应用容量不足时的自动恢复能力 变更防差错 变更对应用业务中断的影响 应急恢复处理 应用在故障情况下的应急恢复能力