搜索_华为云

RES04-01 定义应用系统的容灾目标RPO与RTO - 云架构中心

RES04-01 定义应用系统的容灾目标RPO与RTO 在进行容灾设计前，需要根据应用系统的重要性，明确其容灾目标，通常以RPO和RTO指标来定义： RPO：允许的数据丢失量，与数据的周期性复制周期或连续性复制延时相关。 RTO：允许的业务恢复时长，即业务中断时长，与灾备端业务的部署与切换方式相关。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES04 跨Region/跨云容灾
RES06-03 支持亚健康检测 - 云架构中心

RES06-03 支持亚健康检测系统内组件有可能完全故障，也有可能处于亚健康状态；亚健康是指系统整体业务未超标，但系统中局部实例业务超标。亚健康更多是个相对概念，相对历史表现的统计，或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时，系统也需要及时进行隔离或恢复处理，避免对业务造成影响。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES13-03 过载检测与流量控制 - 云架构中心

RES13-03 过载检测与流量控制当应用系统发生过载时，可能会导致系统疲于处理请求而无法有效提供服务，因此需要进行过载检测并进行流量控制。风险等级高关键策略过载控制(也称流控)指系统处于过载时，通过限流、降级、熔断、弹性伸缩等手段，使系统保证部分或者全部额定容量业务成功处理的控制过程；典型过载控制方法定义如下：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
RES04-02 部署容灾系统以满足容灾目标 - 云架构中心

n主备容灾能力的实施步骤建议如下：选择另一个Region作为灾备Region，部署一套相同的应用系统，包括工作负载、数据库实例等。针对应用系统内的关键数据，利用云服务或应用系统自身实现跨Region的数据复制。若云服务实例支持跨Region容灾，则配置生产站点与灾备Regi

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES04 跨Region/跨云容灾
RES10-02 应用系统多位置部署 - 云架构中心

RES10-02 应用系统多位置部署通过将应用系统部署在多个位置，可以避免由于一个位置的基础设施故障而导致系统不可用。风险等级高关键策略将应用系统的数据和资源部署在多个AZ，可避免单个AZ故障影响业务。对于可用性要求较高的应用系统，可部署在多个Region，避免单个Region故障影响业务。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES10 故障隔离
SEC01-05 实施威胁建模分析 - 云架构中心

实施威胁建模分析威胁建模是一种系统性的方法，用于识别和评估可能对系统或组织造成威胁的潜在威胁源、攻击路径和攻击手段。通过识别威胁理解系统的安全风险，发现系统设计中的安全问题，制定消减措施，降低系统风险，提升系统安全性和韧性。风险等级高关键策略以下是系统运行期间的威胁模型：该模型中涉及的概念如下：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 云安全治理策略 > SEC01 云安全治理策略
RES06-02 面向所有故障进行检测 - 云架构中心

数据是否有效。典型的方法如奇偶校验和CRC（循环冗余校验）。比较测试：当系统具有冗余时，可以使两个系统并行进行计算，然后对结果进行比较，如果结果不匹配则认为发生了故障。这种概念也称为表决。比较可以在系统的任何层次上进行，包括在一条内存总线上的cycle by cycle的比较，到最终发送到网络上结果的比较。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES07-01 定义关键指标与阈值并监控 - 云架构中心

务表现和系统状态，以便在异常状态下尽早干预恢复，或定位改进系统缺陷。风险等级中关键策略关键指标需要与系统内工作负载的关键性能指标相关，并能确定为系统性能下降的早期警告信号，如系统处理的API数量及成功率，相比CPU利用率、内存利用率等基础指标，能更真实的指示系统性能问题。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES10-01 应用控制平面与数据平面隔离 - 云架构中心

而控制平面不直接处理业务，因此其故障时不应该影响业务系统。风险等级高关键策略应用控制平面与数据平面隔离，避免控制系统故障影响业务。数据平面所在业务系统的故障恢复可不依赖控制平面，避免由于控制平面故障而导致业务系统无法恢复。父主题： RES10 故障隔离

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES10 故障隔离
RES07-04 监控数据存储和分析 - 云架构中心

监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。相关云服务和工具 LTS云日志服务：支持日志分析与数据转储

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
通过AOM助力系统运维能力提升，降低运维成本与难度 - 云架构中心

通过AOM助力系统运维能力提升，降低运维成本与难度某平台服务的认证驾驶员用户1000万人，货主用户500万人，集团业务覆盖全国339个主要城市，覆盖线路数量超过11万条，实现了全国多中心运营的架构。客户痛点：多云双活场景运维难保障：大规模集群场景，单个云厂商灾备不足以保障业

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 参考案例
故障全面检测 - 云架构中心
故障全面检测 - 云架构中心

故障全面检测高可用性系统必须具有完善的故障检测能力，以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障，以及潜在的故障的事件。在几乎所有情况下，故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警父主题：韧性支柱

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
RES06-01 故障模式分析 - 云架构中心

严酷度是度量故障给系统造成的最坏潜在后果，一般分为四个等级：Ⅰ类（严重）、Ⅱ类（较严重）、Ⅲ类（一般）、Ⅳ类（轻微）。 I类：这种故障会导致整个系统崩溃或主要功能受到严重影响； II类：这种故障会导致系统主要功能受到影响、任务延误的系统轻度损坏或存在较大的故障隐患； III类：系统次要功能

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES13-02 应用系统负载均衡，避免流量不均匀 - 云架构中心

RES13-02 应用系统负载均衡，避免流量不均匀针对无状态集群业务，通过负载均衡来保证业务均匀分发，可避免部分组件空闲，而部分组件过载而影响业务；同时还可以充分利用系统资源，提高系统性能，改善系统可靠性。风险等级高关键策略负载均衡分发业务粒度需避免过大，而导致部分组件过载。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
RES07-03 监控到异常后发送消息通知 - 云架构中心

RES07-03 监控到异常后发送消息通知当对应用系统监控发现应用异常后，需要向相应的人员和系统发送实时通知消息和告警，以便及时处理。风险等级中关键策略采用实时快捷的消息通知方式，以便相关人员能及时得到消息。消息发送人员需要涵盖运维人员，以便及时恢复。运维人员需要有备份，避免单点风险。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
COST03-03 公共成本分配 - 云架构中心

COST03-03 公共成本分配风险等级中关键策略跨团队共享使用的CDN、直播带宽应按照各业务团队的实际带宽占比，将带宽费用拆分到不同的业务团队。跨团队共享使用的CCE集群服务，应按照各团队分配和使用的CPU/内存等比例，将容器集群成本（包含CCE、ECS、EVS等服务成本）拆分到各个业务团队。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST03 对成本进行分配
RES12-04 出现问题后尽快恢复业务 - 云架构中心

出现问题后尽快恢复业务应用系统出现故障后，需要能尽快发现，尽快响应。风险等级高关键策略可以通过以下途径实现故障的快速发现：监控：应用系统需要提供业务监控信息，以便实时了解系统运行状态；维护团队需要有专人观测，并在发现故障发生时，需要及时响应。告警：应用系统在检测到故障后需要及

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
什么是应用韧性 - 云架构中心
什么是应用韧性 - 云架构中心

应用韧性是应用系统在运行过程中面对各种异常场景，如基础设施故障（如数据库异常）、外部攻击（如网络DDoS攻击超出预定限额流量）、外部依赖故障（如依赖系统访问超时或不可用）、地域灾难（如大面积停电、洪水）等，仍能提供和维持可接受的服务水平的能力，对系统至关重要。系统韧性设计主要涉及以下两个方面：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念
OPS06-06 实施分布式跟踪 - 云架构中心

编码了流经分布式系统的端到端请求流。风险等级高关键策略当系统出现问题时，需要能够追踪系统中每个组件的行为和交互情况。通过在系统中实现分布式跟踪，可以快速定位问题并进行有效的故障排除。设计建议链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时，标识符将被添加

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
可用性需求 - 云架构中心
可用性需求 - 云架构中心

根据“常见IT系统SLO示意”中的表格可以得知，不同的IT系统，SLO目标是存在差异的，不是所有的应用系统都需要达到最高可用性要求。当系统可用性目标要求升高时，所需的成本也通常会增加，因此在可用性目标制定时，需要对韧性与成本进行权衡，确定真正的可用性需求。在系统的可用性目标明

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念

总条数： 208

上一页
1
2
3
4
5
...
11
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES04-01 定义应用系统的容灾目标RPO与RTO - 云架构中心

RES06-03 支持亚健康检测 - 云架构中心

RES13-03 过载检测与流量控制 - 云架构中心

RES04-02 部署容灾系统以满足容灾目标 - 云架构中心

RES10-02 应用系统多位置部署 - 云架构中心

SEC01-05 实施威胁建模分析 - 云架构中心

RES06-02 面向所有故障进行检测 - 云架构中心

RES07-01 定义关键指标与阈值并监控 - 云架构中心

RES10-01 应用控制平面与数据平面隔离 - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

通过AOM助力系统运维能力提升，降低运维成本与难度 - 云架构中心

故障全面检测 - 云架构中心

RES06-01 故障模式分析 - 云架构中心

RES13-02 应用系统负载均衡，避免流量不均匀 - 云架构中心

RES07-03 监控到异常后发送消息通知 - 云架构中心

COST03-03 公共成本分配 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

什么是应用韧性 - 云架构中心

OPS06-06 实施分布式跟踪 - 云架构中心

可用性需求 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线