搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

根据业务情况，手工变更规格以扩展资源。开启存储空间自动扩容，以便在磁盘容量不足时自动扩容。应用层进行过载保护，保障优先业务的运行。连接后端RDS失败检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如RDS实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。当RDS实例由

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法写入成功，可将数据写入本地缓存，待服务可用后再写入实例。当实例由于过载导致网络限制时，可参考“CPU

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

开启自动扩缩容，以便在过载时自动扩容规格和/或只读节点。应用层进行过载保护，保障优先业务的运行。连接后端GaussDB(for MySQL)失败检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如GaussDB(for MySQL)实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > GaussDB(for MySQL)云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。应用层进行过载保护，保障优先业务的运行。 OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。当OBS桶由于过载导致网络限制时，可参考“OBS桶流量过载”的处理。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
RES13 过载保护 - 云架构中心
RES13 过载保护 - 云架构中心

RES13 过载保护当系统流量超过一定阈值后，导致系统处于过载状态时，可能会导致部分请求失败，失败触发业务重试，会进一步增加系统的负荷，形成恶性循环，导致业务成功率远远低于系统的设计容量，甚至整体不可用。因此应用应该设计过载保护机制，使得在过载状态下依然可以保证一定比例设计容量的处理能力。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

S实例进行负荷分担。对于无状态业务，启动AS弹性伸缩，自动扩展资源。应用层进行过载保护，保障优先业务的运行。连接后端ECS失败检测：网络连接失败。恢复：至少部署2个后端ECS。对于无状态业务，配置ELB弹性负载均衡保障业务可靠性；对于有状态业务，由应用层实现多实例高可用。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
RES13-03 过载检测与流量控制 - 云架构中心

RES13-03 过载检测与流量控制当应用系统发生过载时，可能会导致系统疲于处理请求而无法有效提供服务，因此需要进行过载检测并进行流量控制。风险等级高关键策略过载控制(也称流控)指系统处于过载时，通过限流、降级、熔断、弹性伸缩等手段，使系统保证部分或者全部额定容量业务成

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
SEC10-03 自动化响应安全事件 - 云架构中心

修复、通知、调查等。优先级与分级：根据事件的严重性和紧急程度，定义响应的优先级，确保重要事件得到优先处理。持续监控：利用SIEM（安全信息和事件管理）、UEBA（用户和实体行为分析）等工具，对网络、系统、应用程序和用户活动进行实时监控。智能警报：当检测到符合预定义触发条件的

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
变更防差错 - 云架构中心
变更防差错 - 云架构中心

变更防差错在系统的运行过程中，配置变更是导致生产系统不可用的重要风险之一，如配置修改、工作负载手工增缩或补丁安装等。当变更失败时，可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险，需要为工作负载或其环境的更改做好准备，实现工作负载的可靠操作。变更操作属

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
缓存性能优化 - 云架构中心
缓存性能优化 - 云架构中心

单机和主备扩容只能实现内存、带宽的扩容，无法实现计算性能扩容。生产实例需要选择主备或者集群实例，不能选用单机实例强制 - 主备实例，不建议使用过大的规格。建议 Redis在执行RewriteAOF和BGSAVE的时候，会fork一个进程，过大的内存会导致卡顿具备降级或容灾措施缓存访问失败时，具备降级

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍
RES07-01 定义关键指标与阈值并监控 - 云架构中心

以下4个黄金指标，是针对大量分布式监控的经验总结，可以作为业务监控的参考，包括：延迟：注意需要区分请求成功的延迟和请求失败的延迟。流量：对系统业务负荷的监控。错误率：注意区分显示失败（如HTTP 500错误）和隐式失败（如HTTP 200中包含了错误内容）。饱和度：侧重在对系统中最为受限的瓶颈资源的监控。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES13-02 应用系统负载均衡，避免流量不均匀 - 云架构中心

负载均衡分发时需检查后端节点的负载状态，并根据各节点的负载进行业务分发。在后端节点故障的情况下，需要自动将业务分发给其他健康节点处理，以避免业务失败。相关云服务和工具弹性负载均衡 ELB：支持业务负载均衡处理，还支持后端服务器健康状态检测，自动隔离异常状态的ECS。父主题： RES13

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
SEC08-05 数据使用、留存和处置合规性 - 云架构中心

私保护准则，确保数据处理活动符合法律规定并尊重数据主体的权利。风险等级高关键策略使用个人数据前必须获取数据主体授权，使用范围及方法不能超出收集目的。系统应将隐私保护的功能默认设置成保护状态。使用个人数据过程中，必须保证个人数据的安全，如记录运营运维阶段对个人数据增删改、批量导出等操作。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 数据安全与隐私保护 > SEC08 数据隐私保护
SEC08-01 明确隐私保护策略和原则 - 云架构中心

严格保护敏感个人数据。通常情况下，敏感个人数据包括：生活信息如种族或血统、政治观点等；身份信息如身份证号、社会保障号等；财产信息如银行账号信息、存款信息等；健康信息如以往病史、诊治情况等；生物特征信息如指纹、虹膜等；以及其他信息如精准定位信息等。明确个人数据所涉及的角色，包括数据主体、数据控制者、数据处理者、第三方等角色。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 数据安全与隐私保护 > SEC08 数据隐私保护
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

Pod将无法感知，也不会自动重启去恢复。最终导致虽然Pod状态显示正常，但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针：存活探针：livenessProbe，用于检测容器是否正常，类似于执行ps命令检查进程是否存在。如果容器的存活检查失败，集群会

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎
RTO与RPO - 云架构中心
RTO与RPO - 云架构中心

恢复点目标RPO：指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式，是在线备份还是离线备份，是同步复制还是异步复制。国家标准《信息系统灾难恢复规范》（GB/T 20988-2007）中灾难恢复等级与RTO/RPO的关系如下：灾难恢复能力等级能力要求 RTO RPO

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES12-04 出现问题后尽快恢复业务 - 云架构中心

可以通过以下途径实现故障的快速发现：监控：应用系统需要提供业务监控信息，以便实时了解系统运行状态；维护团队需要有专人观测，并在发现故障发生时，需要及时响应。告警：应用系统在检测到故障后需要及时告警，并能通过短消息、邮件等方式发送给所有相关人员，确保使相关人第一时间得知故障信息，以便快速组织应急响应。预测：维

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
SEC05-01 云服务安全配置 - 云架构中心

SEC05-01 云服务安全配置安全配置是一个信息系统的最小安全保障，云服务安全配置是云环境最基本的安全保证，是开展安全防护的基础。正确配置云服务可以帮助防止安全漏洞和数据泄露，提高整体系统安全性。如果云服务没有达到安全配置基线要求，云上业务及资产将面临巨大安全风险。风险等级

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC05 运行环境安全
OPS01-02 规划标准化的运维组织 - 云架构中心

明确的流程，规定了团队之间的协作方式，例如规定不同团队的响应时间、服务级别目标（SLO) 或服务等级协议(SLA），同时应该记录团队间沟通信息，确保有足够的数据用于后续的改进。例如一种运维组织设计是：将运维组织分为一线、二线和三线阶梯型运维支持团队，一线受理客户的服务请求，第一

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS01 建立持续改进的团队文化和标准化的运维体系

总条数： 124

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

RES13 过载保护 - 云架构中心

常见故障模式 - 云架构中心

RES13-03 过载检测与流量控制 - 云架构中心

SEC10-03 自动化响应安全事件 - 云架构中心

变更防差错 - 云架构中心

缓存性能优化 - 云架构中心

RES07-01 定义关键指标与阈值并监控 - 云架构中心

RES13-02 应用系统负载均衡，避免流量不均匀 - 云架构中心

SEC08-05 数据使用、留存和处置合规性 - 云架构中心

SEC08-01 明确隐私保护策略和原则 - 云架构中心

可靠性功能 - 云架构中心

RTO与RPO - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

SEC05-01 云服务安全配置 - 云架构中心

OPS01-02 规划标准化的运维组织 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线