搜索_华为云

RES07-02 日志统计监控 - 云架构中心

RES07-02 日志统计监控应用系统需要收集日志，在必要时对日志进行统计分析，设置告警规则触发告警，统计分析的内容可以是统计一定时间段内某些关键字出现的次数。风险等级中关键策略日志关键字与出现次数阈值需要合理设置，以免监控信息不正确。日志信息（如关键字或出现频率）发生变化时，需要及时更新告警规则。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES13-06 压力负载测试 - 云架构中心

RES13-06 压力负载测试通过压力测试，可衡量系统的弹性扩容能力是否能满足业务要求。风险等级高关键策略参见“RES11-02 压力负载测试”章节。父主题： RES13 过载保护

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高检测：通过CES监控ELB的并发连接数/新建连接数/带宽使用率。恢复：根据业务情况，采用独享型负载均衡器，并手工调整ELB负载均衡器规格。父主题： ELB弹性负载均衡

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ELB弹性负载均衡
RES14-03 变更前数据备份 - 云架构中心

RES14-03 变更前数据备份通过配置数据事前备份与恢复设计，确保在出现配置错误时能够快速恢复到正确的配置数据状态。风险等级高关键策略进行全量数据备份，以防变更过程中数据被破坏，影响业务。异常回滚时，可使用备份数据进行恢复。父主题： RES14 配置防差错

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
RES11-03 长稳测试 - 云架构中心
RES11-03 长稳测试 - 云架构中心

RES11-03 长稳测试基于用户使用场景构建业务模型，自动化构建覆盖系统容量规格70%的业务量，持续7*24小时进行长时间负载测试以评估系统稳定性。风险等级高关键策略模拟各种业务场景进行测试。持续自动测试。测试结果发生偏差时自动告警，以便及时定位和处理。父主题：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES11 可靠性测试
RES14-04 提供runbook进行标准化变更 - 云架构中心

RES14-04 提供runbook进行标准化变更 runbook是指运行手册，是用来实现变更的详细操作过程。变更前需提供标准化runbook用于变更和回退，变更过程中严格按照runbook执行，在变更失败时根据runbook进行回退。风险等级高关键策略 runbook需

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES12-01 组建应急恢复团队 - 云架构中心

为了应对紧急故障场景，需要组建应急恢复团队，明确责任人，并进行培训。风险等级高关键策略组建应急恢复团队：其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。应急恢复主席：在出现问题后及时组织应急恢复团队进行快速恢复处理。组件或关键依赖项运维责任人：负责问题定位和应急恢复处理。制

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
RES12-04 出现问题后尽快恢复业务 - 云架构中心

应急响应。预测：维护团队需要根据系统运行现状，通过数据分析、机器学习等方式，预测系统的风险情况，提前进行预防和处理。在进行应急恢复处理时，通常需要尽快缓解或恢复业务，快速结束业务中断对客户的影响，然后再启动问题定位和修复处理流程，以减少业务中断时间。组织协调：故障发生后，应

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
RES13-03 过载检测与流量控制 - 云架构中心

相关云服务和工具华为云提供了一些内嵌流控保护的云服务，用户可直接配置使用： API网关 APIG：支持配置流控策略，用户可指定单位时间内的单个API、单个用户或单个APP的请求次数上限。微服务引擎 CSE：支持限流，用户可指定一定时间内可接受的请求次数上限。父主题： RES13 过载保护

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
RES07-03 监控到异常后发送消息通知 - 云架构中心

监控到异常后发送消息通知当对应用系统监控发现应用异常后，需要向相应的人员和系统发送实时通知消息和告警，以便及时处理。风险等级中关键策略采用实时快捷的消息通知方式，以便相关人员能及时得到消息。消息发送人员需要涵盖运维人员，以便及时恢复。运维人员需要有备份，避免单点风险。 SMN消息通知

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

当磁盘使用率高时，可根据业务情况，修改实例存储空间支持更大存储空间。当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
SEC10-01 建立安全响应团队 - 云架构中心

安全响应专家：主导网络安全事件调查，负责对事件进行定级、通报、攻击溯源以及确定影响范围，制定应急处置措施，推动服务控制风险。攻击溯源专家：根据攻击的IOC信息进行溯源，追溯攻击者信息，攻击范围（无遗漏），攻击溯源图（攻击路径）和攻击溯源报告，确认攻击事件性质。高级分析专家：漏洞分析及复

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

TaurusDB实例由于过载导致网络限制时，可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。父主题：云数据库 TaurusDB云数据库

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > 云数据库 TaurusDB云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行过载保护，保障优先业务的运行。 OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。当OBS桶由于过载导致网络限制时，可参考“OBS桶流量过载”的处理。 OBS桶内数据被误删检测：NA

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
性能数据采集 - 云架构中心
性能数据采集 - 云架构中心

性能数据采集收集性能数据是收集指标和日志的过程，这些指标和日志提供有关工作负载性能的信息。此数据包括数值，称为指标。指标描述系统在特定时间点的状态。它还包括包含组织成记录的不同类型的数据的日志。通过收集性能数据，可以监视和分析工作负载的性能。可以使用此信息来识别性能瓶颈、

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF04 性能分析
问题和检查项 - 云架构中心
问题和检查项 - 云架构中心

选择合适类型的计算云服务选择合适规格的虚拟机和容器节点使用弹性伸缩选择合适类型的网络云服务选择合适类型的存储云服务选择合适的消息队列选择合适规格的Kafka 选择合适规格的RocketMQ 选择合适规格的RabbitMQ 选择合适的关系型数据库选择合适的非关系型数据库

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱
PERF05 性能优化 - 云架构中心
PERF05 性能优化 - 云架构中心

性能优化工作中，需警惕“过早优化”的问题。我们的基本指导策略还是首先让系统运行起来，再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候，才应进行优化。除非用专门的工具分析瓶颈，否则很有可能是在浪费自己的时间。另外，性能优化的隐含代价会使我们的代码变得难于理解和维护，这一点也是需要权衡和关注的。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱
问题和检查项 - 云架构中心
问题和检查项 - 云架构中心

如何管理人机接口和机机接口的身份认证？对账号进行保护安全的登录机制安全管理及使用凭证一体化身份管理 SEC03 如何管理人员和机器的权限？定义权限访问要求按需分配合适的权限定期审视权限安全共享资源 SEC04 如何进行网络安全设计？对网络划分区域控制网络流量的访问网络访问权限最小化

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱
变更防差错 - 云架构中心
变更防差错 - 云架构中心

变更防差错在系统的运行过程中，配置变更是导致生产系统不可用的重要风险之一，如配置修改、工作负载手工增缩或补丁安装等。当变更失败时，可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险，需要为工作负载或其环境的更改做好准备，实现工作负载的可靠操作。变更操作属

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱

总条数： 335

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES07-02 日志统计监控 - 云架构中心

RES13-06 压力负载测试 - 云架构中心

常见故障模式 - 云架构中心

RES14-03 变更前数据备份 - 云架构中心

RES11-03 长稳测试 - 云架构中心

RES14-04 提供runbook进行标准化变更 - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

RES12-01 组建应急恢复团队 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

RES13-03 过载检测与流量控制 - 云架构中心

RES07-03 监控到异常后发送消息通知 - 云架构中心

常见故障模式 - 云架构中心

SEC10-01 建立安全响应团队 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

性能数据采集 - 云架构中心

问题和检查项 - 云架构中心

PERF05 性能优化 - 云架构中心

问题和检查项 - 云架构中心

变更防差错 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线