搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

根据业务情况，手工变更规格以扩展资源。开启存储空间自动扩容，以便在磁盘容量不足时自动扩容。应用层进行过载保护，保障优先业务的运行。连接后端RDS失败检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如RDS实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。当RDS实例由

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法写入成功，可将数据写入本地缓存，待服务可用后再写入实例。当实例由于过载导致网络限制时，可参考“CPU

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。应用层进行过载保护，保障优先业务的运行。 OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。当OBS桶由于过载导致网络限制时，可参考“OBS桶流量过载”的处理。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

开启自动扩缩容，以便在过载时自动扩容规格和/或只读节点。应用层进行过载保护，保障优先业务的运行。连接后端云数据库 TaurusDB失败检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如云数据库 TaurusDB实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > 云数据库 TaurusDB云数据库
RES13 过载保护 - 云架构中心
RES13 过载保护 - 云架构中心

RES13 过载保护当系统流量超过一定阈值后，导致系统处于过载状态时，可能会导致部分请求失败，失败触发业务重试，会进一步增加系统的负荷，形成恶性循环，导致业务成功率远远低于系统的设计容量，甚至整体不可用。因此应用应该设计过载保护机制，使得在过载状态下依然可以保证一定比例设计容量的处理能力。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

S实例进行负荷分担。对于无状态业务，启动AS弹性伸缩，自动扩展资源。应用层进行过载保护，保障优先业务的运行。连接后端ECS失败检测：网络连接失败。恢复：至少部署2个后端ECS。对于无状态业务，配置ELB弹性负载均衡保障业务可靠性；对于有状态业务，由应用层实现多实例高可用。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
可用度及SLO - 云架构中心
可用度及SLO - 云架构中心

的时长要求。针对应用系统内薄弱环节进行增强：当云服务SLA无法满足要求时，需要应用层进行额外的保护和增强。通过冗余提升可用度：包括组件冗余（负载均衡集群），故障回退冗余（fail-back，例如使用DMS访问失败时暂时切换到SMN）。父主题：可用性目标定义

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
变更防差错 - 云架构中心
变更防差错 - 云架构中心

变更防差错在系统的运行过程中，配置变更是导致生产系统不可用的重要风险之一，如配置修改、工作负载手工增缩或补丁安装等。当变更失败时，可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险，需要为工作负载或其环境的更改做好准备，实现工作负载的可靠操作。变更操作属

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
RES13-03 过载检测与流量控制 - 云架构中心

RES13-03 过载检测与流量控制当应用系统发生过载时，可能会导致系统疲于处理请求而无法有效提供服务，因此需要进行过载检测并进行流量控制。风险等级高关键策略过载控制(也称流控)指系统处于过载时，通过限流、降级、熔断、弹性伸缩等手段，使系统保证部分或者全部额定容量业务成

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
设计原则 - 云架构中心
设计原则 - 云架构中心

极应对系统中隐藏的问题或者将问题推给了其他组织，部门。最终，这种文化上的高压导致整个组织和运维流程的僵化，以及系统不能持续迭代更新之后的代码、架构腐化，最终导致无法运维的系统。故而，文化上，惩前毖后，应重在总结经验，明确改进责任主体组织，不责怪个人。在总结经验上，应该将相关经

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱
RES13-02 应用系统负载均衡，避免流量不均匀 - 云架构中心

负载均衡分发时需检查后端节点的负载状态，并根据各节点的负载进行业务分发。在后端节点故障的情况下，需要自动将业务分发给其他健康节点处理，以避免业务失败。相关云服务和工具弹性负载均衡 ELB：支持业务负载均衡处理，还支持后端服务器健康状态检测，自动隔离异常状态的ECS。父主题： RES13

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
RES07-01 定义关键指标与阈值并监控 - 云架构中心

以下4个黄金指标，是针对大量分布式监控的经验总结，可以作为业务监控的参考，包括：延迟：注意需要区分请求成功的延迟和请求失败的延迟。流量：对系统业务负荷的监控。错误率：注意区分显示失败（如HTTP 500错误）和隐式失败（如HTTP 200中包含了错误内容）。饱和度：侧重在对系统中最为受限的瓶颈资源的监控。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
SEC08-01 明确隐私保护策略和原则 - 云架构中心

严格保护敏感个人数据。通常情况下，敏感个人数据包括：生活信息如种族或血统、政治观点等；身份信息如身份证号、社会保障号等；财产信息如银行账号信息、存款信息等；健康信息如以往病史、诊治情况等；生物特征信息如指纹、虹膜等；以及其他信息如精准定位信息等。明确个人数据所涉及的角色，包括数据主体、数据控制者、数据处理者、第三方等角色。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 数据安全与隐私保护 > SEC08 数据隐私保护
SEC05-01 云服务安全配置 - 云架构中心

SEC05-01 云服务安全配置安全配置是一个信息系统的最小安全保障，云服务安全配置是云环境最基本的安全保证，是开展安全防护的基础。正确配置云服务可以帮助防止安全漏洞和数据泄露，提高整体系统安全性。如果云服务没有达到安全配置基线要求，云上业务及资产将面临巨大安全风险。风险等级

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC05 运行环境安全
RTO与RPO - 云架构中心
RTO与RPO - 云架构中心

恢复点目标RPO：指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式，是在线备份还是离线备份，是同步复制还是异步复制。国家标准《信息系统灾难恢复规范》（GB/T 20988-2007）中灾难恢复等级与RTO/RPO的关系如下：灾难恢复能力等级能力要求 RTO RPO

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES12-04 出现问题后尽快恢复业务 - 云架构中心

可以通过以下途径实现故障的快速发现：监控：应用系统需要提供业务监控信息，以便实时了解系统运行状态；维护团队需要有专人观测，并在发现故障发生时，需要及时响应。告警：应用系统在检测到故障后需要及时告警，并能通过短消息、邮件等方式发送给所有相关人员，确保使相关人第一时间得知故障信息，以便快速组织应急响应。预测：维

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
SEC07-01 识别工作负载内的数据 - 云架构中心

途。与业务部门、开发团队、运维人员等进行交流，获取关于数据的详细信息。确定数据的分布：需要确定数据存储在哪里，例如云硬盘、数据库、对象存储等。评估数据敏感度。确定数据的类型和内容，例如是否包含个人身份信息（如姓名、身份证号、地址等）、财务数据（如银行账号、交易记录等）、商

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 数据安全与隐私保护 > SEC07 通用数据安全
SEC10-05建立复盘机制 - 云架构中心

确定复盘的目的：在进行复盘之前，明确目的是非常重要的。确定您希望从这次安全事件中学到什么，以及如何改进未来的安全措施。收集事实和数据：收集关于安全事件的所有相关信息和数据，可以用5W2H方法整理该事件，包括事件发生的时间、地点、责任人、事件的过程、原因、影响等。组建复盘团队：邀请相关的团队成员和利益

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

Pod将无法感知，也不会自动重启去恢复。最终导致虽然Pod状态显示正常，但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针：存活探针：livenessProbe，用于检测容器是否正常，类似于执行ps命令检查进程是否存在。如果容器的存活检查失败，集群会

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎

总条数： 128

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

RES13 过载保护 - 云架构中心

常见故障模式 - 云架构中心

可用度及SLO - 云架构中心

变更防差错 - 云架构中心

RES13-03 过载检测与流量控制 - 云架构中心

设计原则 - 云架构中心

RES13-02 应用系统负载均衡，避免流量不均匀 - 云架构中心

RES07-01 定义关键指标与阈值并监控 - 云架构中心

SEC08-01 明确隐私保护策略和原则 - 云架构中心

SEC05-01 云服务安全配置 - 云架构中心

RTO与RPO - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

SEC07-01 识别工作负载内的数据 - 云架构中心

SEC10-05建立复盘机制 - 云架构中心

可靠性功能 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线