搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

/内存/带宽/数据库连接数使用率过高”的处理。对于非暂行性故障，应用层需要能回退到原始数据源进行处理，避免由于缓存故障而导致业务无法运行。读写DCS概率性失败检测：读写失败。针对低概率超时错误，是Redis使用的正常现象。Redis使用受到网络传输、客户端设置超时时间等因素影响，可能出现单个请求超时问题。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
OPS05-03 定义变更流程 - 云架构中心

变更信息：变更系统、变更场景、变更类型等。变更方案：变更实施方案、回滚方案、验证方案等。变更审批：由于变更系统相关的负责人进行审核，确保变更风险级别，若无法控制或无法预测，则建议明确变更方案或禁止变更。变更审批流程可由多人进行组合，包括：业务负责人、团队TL、技术TL等，变更涉及的人员可根据变更的影响程度以及影响范围等因素确定。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS05 运维准备和变更管理
RES12 应急恢复处理 - 云架构中心

RES12 应急恢复处理应用系统无论如何精心设计，仍可能会出现无法恢复的故障，当此类故障发生后，需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法写入成功，可将数据写入本地缓存，待服务可用后再写入实例。当实例由于过载导致网络限制时，可参考“CPU

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
RES13-05 资源自动扩容考虑了配额限制 - 云架构中心

RES13-05 资源自动扩容考虑了配额限制当应用系统在资源不足自动扩容时，需要考虑配额的限制，若配额不足，会导致自动扩容失败。风险等级高关键策略华为云为防止资源滥用，限定了各服务资源的配额，对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
COST08-03 存算分离 - 云架构中心

如某导购网站日志分析业务，存储经常扩容，计算需求没有明显增长，计算资源浪费；某互联网客户推荐业务，存储容量缓慢线性增加，计算突发需求大，峰值计算资源消耗是低谷时几十倍，无法弹性使用计算资源。使用对象存储代替HDFS/本地盘，计算存储分离，多种计算组件独立部署，计算和存储各自按需使用，避免绑定性浪费，结构化降本30%。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST08 进行架构优化
RES09 故障重试 - 云架构中心
RES09 故障重试 - 云架构中心

CS所在物理服务器由于硬件原因故障时，ECS重启或在其他物理服务器中自动恢复，恢复过程中与ECS的通信会中断，需要重试。实例由于过载导致无法及时响应，需要重试。 RES09-01 API及命令调用需要设计为可重试 RES09-02 客户端需要根据综合评估是否要重试 RES09-03

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复
RES10-04 健康检查与自动隔离 - 云架构中心

云容器引擎 CCE：支持容器健康检查，容器运行过程中，可根据用户需要，定时检查容器健康状况。若不配置健康检查，如果容器内应用程序异常，Pod将无法感知，也不会自动重启去恢复。最终导致虽然Pod状态显示正常，但Pod中的应用程序异常的情况。父主题： RES10 故障隔离

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES10 故障隔离
OPS05-02 进行变更风控 - 云架构中心

措施削减或规避风险，保障变更成功。变更风险指现网各要素增、删、改及状态改变（如版本迭代、配置改变、节点扩缩容等）时引发的业务中断风险及变更失败可能导致的业务受损风险。设计建议变更风控衡量指标：变更风控衡量指标为变更导致事件密度和变更引入重大事件数。变更导致事件密度定义：每月

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS05 运维准备和变更管理
设计原则 - 云架构中心
设计原则 - 云架构中心

极应对系统中隐藏的问题或者将问题推给了其他组织，部门。最终，这种文化上的高压导致整个组织和运维流程的僵化，以及系统不能持续迭代更新之后的代码、架构腐化，最终导致无法运维的系统。故而，文化上，惩前毖后，应重在总结经验，明确改进责任主体组织，不责怪个人。在总结经验上，应该将相关经

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

Replication Service，简称DRS）创建灾备任务，当主实例所在区域发生突发性自然灾害等状况，主节点（Master）和备节点（Slave）均无法连接时，可将异地灾备实例切换为主实例，在应用端修改数据库链接地址后，即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能，可实现主实

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式弹性伸缩失败检测：查看弹性伸缩组的弹性伸缩活动历史。恢复：根据伸缩活动失败描述信息进行修复。父主题： AS弹性伸缩

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > AS弹性伸缩
OPS04-03 基础设施即代码 - 云架构中心

作程序中，清楚地记录人工步骤，并实现标准化，以确保安全、一致地执行任务。回收闲置资源：由于配置管理工具及其限制等原因，有时 IaC 工具无法自动删除资源。例如，假设需要从虚拟机迁移到 PaaS 服务，而 IaC 工具没有删除闲置资源的逻辑。如果忘记手动删除这些资源，这些资源可能

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS04 自动化构建和部署流程
卓越架构技术框架简介 - 云架构中心

及合法、合规使用数据，保护用户隐私的一系列最佳实践。性能效率支柱：聚焦于如何设计出高性能的架构。作为基本的质量属性，性能的重要性和性能失败后果的严重性是无须质疑的。性通效率支柱为性能设计、性能优化提供一些技术方法和手段，可以用于系统的软件性能工程，也可用于指导性能调整和优化。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

Pod将无法感知，也不会自动重启去恢复。最终导致虽然Pod状态显示正常，但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针：存活探针：livenessProbe，用于检测容器是否正常，类似于执行ps命令检查进程是否存在。如果容器的存活检查失败，集群会

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎
RES14-04 提供runbook进行标准化变更 - 云架构中心

变更前需提供标准化runbook用于变更和回退，变更过程中严格按照runbook执行，在变更失败时根据runbook进行回退。风险等级高关键策略 runbook需涵盖变更前检查、变更操作、变更后检查及变更失败回退操作。父主题： RES14 配置防差错

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
PERF03-05 选择合适类型的存储云服务 - 云架构中心

存放的是文件，会以文件和文件夹的层次结构来整理和呈现数据。存放的是对象，可以直接存放文件，文件会自动产生对应的系统元数据，用户也可以自定义文件的元数据。存放的是二进制数据，无法直接存放文件，如果需要存放文件，需要先格式化文件系统后使用。访问方式在ECS/BMS中通过网络协议挂载使用，支持NFS和CIFS的网络

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模 > 选择合适的存储云服务
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

当选择多AZ部署时，可配置“多可用区扩展策略”为“均衡分布”或“选择优先”：均衡分布：云服务器扩容时优先保证选择的可用区列表中各可用区下云服务器数量均衡，当无法在目标可用区下完成云服务器扩容时，按照选择优先原则选择其他可用区。选择优先：云服务器扩容时目标可用区的选择按照选择的可用区列表的顺序进行优先级排序。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > AS弹性伸缩
可用度及SLO - 云架构中心
可用度及SLO - 云架构中心

的时长要求。针对应用系统内薄弱环节进行增强：当云服务SLA无法满足要求时，需要应用层进行额外的保护和增强。通过冗余提升可用度：包括组件冗余（负载均衡集群），故障回退冗余（fail-back，例如使用DMS访问失败时暂时切换到SMN）。父主题：可用性目标定义

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
PERF02-02 容量规划 - 云架构中心

PU使用率、内存使用量、磁盘空间等。资源限制的主要目的是保证系统的稳定性，防止某些进程或应用程序占用过多的系统资源，导致其他进程或应用程序无法正常运行，甚至导致系统崩溃。父主题：性能规划

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF02 性能规划 > 性能规划

总条数： 120

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

OPS05-03 定义变更流程 - 云架构中心

RES12 应急恢复处理 - 云架构中心

常见故障模式 - 云架构中心

RES13-05 资源自动扩容考虑了配额限制 - 云架构中心

COST08-03 存算分离 - 云架构中心

RES09 故障重试 - 云架构中心

RES10-04 健康检查与自动隔离 - 云架构中心

OPS05-02 进行变更风控 - 云架构中心

设计原则 - 云架构中心

可靠性功能 - 云架构中心

常见故障模式 - 云架构中心

OPS04-03 基础设施即代码 - 云架构中心

卓越架构技术框架简介 - 云架构中心

可靠性功能 - 云架构中心

RES14-04 提供runbook进行标准化变更 - 云架构中心

PERF03-05 选择合适类型的存储云服务 - 云架构中心

可靠性功能 - 云架构中心

可用度及SLO - 云架构中心

PERF02-02 容量规划 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线