检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择合适类型的网络云服务 选择合适类型的存储云服务 选择合适的消息队列 选择合适规格的Kafka 选择合适规格的RocketMQ 选择合适规格的RabbitMQ 选择合适的关系型数据库 选择合适的非关系型数据库 PERF04 如何进行性能分析? 定义性能验收标准 选择合适的测试方式 性能测试步骤
建立持续学习和改进的文化 2. 规划标准化的运维组织 3. 规划标准化的运维流程与运维工具 OPS02 您是否通过CI/CD实现高效的频繁可逆的小规模变更? 1. 进行需求管理与迭代开发 2. 关联源代码版本和部署的应用版本,使用代码质量最佳实践 OPS03 你是否有完备的测试验证体系? 1. 推行开发者测试
问题和检查项 企业在进行应用韧性设计的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有检查项,也是最佳实践建议,将在下一章节进行详细描述。 问题 检查项/最佳实践 RES01 您如何使用冗余技术确保应用系统的高可用? 应用组件高可用部署 应用组件多位置部署
RES02-01 识别和备份应用中所有需要备份的关键数据 不同数据的重要性不一样,针对应用系统内的所有数据,需要明确其重要性及对应的RPO/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较低的备份频率;
关键策略 实施与您的组织对应的IT治理结构。这有助于在整个组织内分摊和管理成本。随着经营范围和规模的不断扩张,不断建立子公司、分公司,大部门也逐步拆分成多个小部门,组织结构的层级也就越来越多。企业的IT治理架构也会受到组织结构的影响,需要匹配企业管理模型,帮助企业以多层级组织的方式管理人
(Resilience) 系统从故障中保持在已知运行状态(甚至降级)的能力。在遭遇故障后快速恢复核心功能和数据,且在业务需要的时间窗内恢复到有效运行状态。 可靠性 (Reliability) 产品在规定的条件下和规定的时间内完成规定功能的能力。它的概率度量称为可靠度。 可用性 (Availability)
COST07 管理和优化资源 COST07-01 持续监控资源利用率指标 COST07-02 释放闲置资源 COST07-03 考虑不同的云资源技术选型 COST07-04 合理降配低负载资源或升配高负载资源 父主题: 成本优化支柱
能带来的好处(例如分析时间与应用成本成正比)以及相应的成本是否带来正向的营收。 回顾和审核的频率应该综合考虑多种因素,包括成本优化在企业或者组织中的重要性,测试和验证成本,应用的复杂性和优化变更的难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而
RES15-04 灰度部署和升级 原地升级和回滚时,升级和回滚过程中业务将会中断,中断时长受限于升级和回滚的时长,对业务影响比较大;而采用灰度部署和升级,可减少升级和回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,
5% 的应用相比,应更经常、更彻底地审核占总成本 50% 的应用。优化时要考虑的另一个因素是实施更改的工作量。如果测试和验证变更的成本很高,优化的频率应该降低。您应该反方向考虑是否可以通过替身自动化测试和验证能力,从而进一步降低人力成本。 此外,由于成本优化带来可能带来的资源冗余
故障模式分析是在系统分析和设计过程,通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部署在华为云中时,华为云提供了基础设施的故障管理,
COST05 优化指定策略和目标 COST05-01 分析业务趋势和优化收益 COST05-02 建立可以量化的优化目标 COST05-03 定期回顾和审核 父主题: 成本优化支柱
OPS08-02 进行事故复盘和改进 事故分析的目的是:规范和指导重大事故发生后,优化事故的输入、输出,确保事故回溯工作有效开展,回溯报告中发现的问题有效整改,总结的经验有效推广。 风险等级 高 关键策略 故障发生后,通过对现网重大故障处理过程 Review 及根因进行分析和改进总结,规范整个
OPS08 度量运营状态和持续改进 OPS08-01 使用度量指标衡量运营目标 OPS08-02 进行事故复盘和改进 OPS08-03 知识管理 父主题: 卓越运营支柱
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS02-01 进行需求管理和迭代开发 OPS02-02 关联源代码版本和部署的应用版本,使用代码质量最佳实践 父主题: 卓越运营支柱
OPS07 进行故障分析和管理 OPS07-01 创建可操作的告警 OPS07-02 创建监控看板 OPS07-03 支持事件管理 OPS07-04 支持故障恢复流程 父主题: 卓越运营支柱
SEC08-01 明确隐私保护策略和原则 明确隐私保护策略和原则是指在处理个人数据时,明确规定和遵守的保护个人隐私数据的总体策略和原则。 风险等级 高 关键策略 明确个人数据的分级及影响。个人数据包括:自然人的email地址、电话号码、生物特征(指纹)、位置数据、IP地址、医疗信
SEC08-05 数据使用、留存和处置合规性 数据使用、留存和处置的合规性是指数据处理者在处理个人数据的过程中,包括数据的使用、保留和销毁阶段,需遵守相关的法律法规和隐私保护准则,确保数据处理活动符合法律规定并尊重数据主体的权利。 风险等级 高 关键策略 使用个人数据前必须获取数