搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

/内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高检测：通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。开启自动扩缩容，以便在过载时自动扩容规格和/或只读节点。应用层进行过载保护，保障优先业务的运行。连接后端云数据库 TaurusDB失败

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > 云数据库 TaurusDB云数据库
选择合适的数据库资源 - 云架构中心

首要的决策依据。可迁移性：针对数据库上云迁移，解决方案要具备平滑迁移的能力；结合数据库迁移服务所提供的能力，评估迁移上云过程中，数据库的切换对业务系统中其他组件的影响（如服务中断的影响、数据转移效率），这是具体实施业务上云过程中的重点关切。业务应用场景的评估：如果是在云上新建

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模
金融类核心应用典型部署架构（99.999%） - 云架构中心

999%，即每年故障时间可以为5.26分钟。假定故障中断与变更中断的时长分别如下：故障中断：由于要求的故障中断时间很短，要求尽可能自动恢复，没有手动触发的恢复，假定每年故障中断4次，每次自动恢复时长为1分钟，则每年故障中断时长为4分钟。变更中断：假定应用支持金丝雀部署或蓝绿部署，并自动完成，软件更新不中断业务。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 参考架构
RES05-01 网络连接高可用 - 云架构中心

网络链路冗余：网络连接需要支持多路径，以实现高可用能力，以避免在一条网络路径中断的情况下，业务能切换到其他路径继续通信。网络链路快速倒换：需要定期检查网络链路的连通性，但检测到失败时需要尽快切换到正常路径。公有云组网场景可通过多EIP 弹性IP及DNS域名解析实现网络连接的高可用；

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES05 网络高可用
SEC07-01 识别工作负载内的数据 - 云架构中心

确定数据的分布：需要确定数据存储在哪里，例如云硬盘、数据库、对象存储等。评估数据敏感度。确定数据的类型和内容，例如是否包含个人身份信息（如姓名、身份证号、地址等）、财务数据（如银行账号、交易记录等）、商业机密（如产品研发计划、客户名单等）或其他受法规保护的数据；考虑数据的潜在影响。如果数据泄露

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 数据安全与隐私保护 > SEC07 通用数据安全
卓越架构技术框架简介 - 云架构中心

一系列设计原则与最佳实践，用以帮助企业利用华为云平台基础设施达到高可用、面向各种故障场景进行韧性设计，并具备一定的灾备能力；同时通过规范化变更、部署及应急恢复等处理流程，减少业务中断时长，提升可用性。安全性支柱：旨在确保业务的安全、可信、合规，通过一系列华为云架构的最佳实践保

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践
设计原则 - 云架构中心
设计原则 - 云架构中心

达到运维操作团队运作“最佳秩序”，简化运维交付工作，降低技能依赖，提高运维效率，降低运作成本。通过CI/CD实现高效的频繁可逆的小规模变更在软件开发过程中，应该尽量使需求分析，设计，开发，测试，部署的开发周期较小，使用频繁的小型迭代进行。一个典型的实践是使用微服务和CI/C

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱
云运维中心(COC) - 云架构中心
云运维中心(COC) - 云架构中心

风险评估：基于场景规则、流程规则、业务规则对变更进行管控，提前识别和拦截变更风险；通过变更日历实现变更冲突检测，降低服务间变更依赖导致的变更风险。实施保障：按预定方案执行变更，变更步骤标准化、可观测，变更异常及时介入处理，实现变更实施全过程可控、可视、可管。确定性故障管理

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 卓越运营云服务介绍
缓存性能优化 - 云架构中心
缓存性能优化 - 云架构中心

的时候，会fork一个进程，过大的内存会导致卡顿具备降级或容灾措施缓存访问失败时，具备降级措施，从DB获取数据；或者具备容灾措施，自动切换到另一个Redis使用。建议 - 数据设计规范分类原则原则说明级别备注 Key相关规范使用统一的命名规范。一般使用业务名（

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍
RES03-01 集群跨AZ部署 - 云架构中心

或ELB跨AZ负载均衡能力，实现跨AZ高可用，在一个可用区故障时能自动快速切换。对于有状态ECS实例，或BMS实例，建议从应用层实现跨AZ容灾，支持跨AZ自动切换或通过容灾管理工具实现自动化容灾切换，减少灾难发生时的人工操作。对于已部署的应用系统改造为跨AZ实例的实施步骤：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
RES03 跨AZ容灾 - 云架构中心
RES03 跨AZ容灾 - 云架构中心

或应用自身支持的跨AZ数据复制与切换能力，在多个AZ之间复制数据、负载均衡和跨AZ故障切换，从而使应用系统具备应对可用区故障的能力。 RES03-01 集群跨AZ部署 RES03-02 跨AZ数据同步 RES03-03 对接容灾仲裁，支持自动切换 RES03-04 支持容灾管理父主题：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计
问题和检查项 - 云架构中心
问题和检查项 - 云架构中心

有效落地持续集成 2. 采用持续部署模型 3. 基础设施即代码 4. 自动化工程运维任务 OPS05 是否有运维准备和变更管理体系？ 1. 进行生产准备度评审 2. 进行变更风控 3. 定义变更流程 OPS06 是否建立了完备的可观测体系？ 1.建立可观测体系 2.定义可观测对象 3.制定和实施可观测性指标

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱
卓越运营支柱 - 云架构中心
卓越运营支柱 - 云架构中心

建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06 可观测性体系 OPS07 进行故障分析和管理 OPS08 度量运营状态和持续改进

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

理规格或增加代理数量以扩展资源。当磁盘使用率高时，可根据业务情况，修改实例存储空间支持更大存储空间。当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
Spark性能优化 - 云架构中心
Spark性能优化 - 云架构中心

内存中，提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储，使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力，包括小批量流式处理、离线批处理、SQL查询、数据挖掘等，用户可以在同一个应用中无缝结合使用这些能力。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 大数据性能优化
跨云容灾方案 - 云架构中心
跨云容灾方案 - 云架构中心

IDC或其他云出现故障时可以快速切换到华为云。监控告警进行站点运行状态检查，在发生故障时告警；针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控，在资源过载时需要告警。弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。变更防差错软件更新采用金丝雀或蓝绿

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 参考架构 > 跨云场景典型部署架构（99.99%）
SEC10-02 制定事件响应计划 - 云架构中心

SEC10-02 制定事件响应计划事件响应计划（Incident Response Plan, IRP）是组织安全策略的重要组成部分，它旨在确保在安全事件发生时，能够迅速、有序地采取行动，最大限度地减少损失，并尽快恢复正常运营。风险等级高关键策略建立事件响应计划，包括定

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
什么是应用韧性 - 云架构中心
什么是应用韧性 - 云架构中心

RDS数据库提供自动数据备份、跨AZ和跨Region的数据复制与切换。不过，即使应用系统利用云平台能力具有了这些高可用能力，要实现较高的可用性，仍需要构建针对各种偶发故障下的恢复能力，如：由于硬件故障导致的高可用切换或跨AZ切换过程中，导致瞬时链接中断，需要应用系统具备链接中断重试的功能。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念
概述 - 云架构中心
概述 - 云架构中心

在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力监控告警应用系统故障后的检测和告警能力弹性扩缩容应用容量不足时的自动恢复能力变更防差错变更对应用业务中断的影响应急恢复处理应用在故障情况下的应急恢复能力父主题：参考架构

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 参考架构
人工智能性能优化 - 云架构中心

人工智能性能优化 1.训练优化模型性能提升实践参数调优策略：调整模型flash attention、并行切分策略、micro batch size、重计算策略等参数。尽可能充分利用显存和算力，通过参数调优，初步优化性能。性能拆解参数调优后性能仍然与转商目标有较大的差距，需

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍

总条数： 129

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

选择合适的数据库资源 - 云架构中心

金融类核心应用典型部署架构（99.999%） - 云架构中心

RES05-01 网络连接高可用 - 云架构中心

SEC07-01 识别工作负载内的数据 - 云架构中心

卓越架构技术框架简介 - 云架构中心

设计原则 - 云架构中心

云运维中心(COC) - 云架构中心

缓存性能优化 - 云架构中心

RES03-01 集群跨AZ部署 - 云架构中心

RES03 跨AZ容灾 - 云架构中心

问题和检查项 - 云架构中心

卓越运营支柱 - 云架构中心

常见故障模式 - 云架构中心

Spark性能优化 - 云架构中心

跨云容灾方案 - 云架构中心

SEC10-02 制定事件响应计划 - 云架构中心

什么是应用韧性 - 云架构中心

概述 - 云架构中心

人工智能性能优化 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线