搜索_华为云

RES06-02 面向所有故障进行检测 - 云架构中心

员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测，如华为云APM。业务检测：模拟用户的业务操作过程，获得完成业务的操作过程性能数据和操作结果数据；业务检测使用拨测技术来完成检测，由于拨测需要占用网络资源，对于长周期拨测，一般选择在空闲

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES01-03 云服务器反亲和 - 云架构中心

RES01-03 云服务器反亲和应用内相同业务的ECS需要分散到多台物理服务器，避免运行到同一台物理服务器上，当发生这种情况时，可能会由于一台物理服务器故障而导致业务中断。风险等级高关键策略针对多个承载相同业务的ECS，需要配置主机组反亲和，从而可以将相同业务的ECS调

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES01 冗余
RES05-01 网络连接高可用 - 云架构中心

RES05-01 网络连接高可用应用系统对外提供服务时，需要确保对外网络连接的高可用，避免单个网络连接中断而导致业务不可用。风险等级高关键策略网络链路冗余：网络连接需要支持多路径，以实现高可用能力，以避免在一条网络路径中断的情况下，业务能切换到其他路径继续通信。网络链

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES05 网络高可用
RES15-02 自动化检查 - 云架构中心

RES15-02 自动化检查在部署或升级过程中集成基本测试功能，实现自动化检查，无需人工参与。风险等级高关键策略在部署或升级过程中集成基本测试功能，在部署或升级完成后自动进行检查和测试，以验证新部署的代码功能是否正确。在部署或升级过程中集成故障注入测试功能，在部署或升

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
RES15-04 灰度部署和升级 - 云架构中心

RES15-04 灰度部署和升级原地升级和回滚时，升级和回滚过程中业务将会中断，中断时长受限于升级和回滚的时长，对业务影响比较大；而采用灰度部署和升级，可减少升级和回滚过程中的业务中断，提升系统可用性。风险等级高关键策略通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署，

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 ECS的CPU /内存/磁盘容量/磁盘IOPS使用率过高检测：通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率。恢复：根据业务情况，手工变更规格以扩展资源或增加ECS实例进行负荷分担。对于无状态业务，启动AS弹性伸缩，自动扩展资源。应用层进行过载保护，保障优先业务的运行。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 DCS的CPU /内存/带宽/连接数使用率过高检测：通过CES监控CPU /内存/带宽/连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。应用层进行过载保护，保障优先业务的运行，如将部分性能要求不高的业务切回到原始数据源。连接后端DCS失败检测：连接失败。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
SEC10-01 建立安全响应团队 - 云架构中心

SEC10-01 建立安全响应团队建立安全事件响应团队，明确各角色与职责。风险等级高关键策略安全事件响应团队一般包含如下角色及职责：安全响应专家：主导网络安全事件调查，负责对事件进行定级、通报、攻击溯源以及确定影响范围，制定应急处置措施，推动服务控制风险。攻击溯源专

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
RES01-02 应用组件多位置部署 - 云架构中心

RES01-02 应用组件多位置部署应用组件需要部署在多个数据中心，以避免单个数据中心故障而导致业务中断。风险等级高关键策略可根据不同需求，将应用的数据和资源部署在多个位置：应用多AZ部署：应用应尽可能部署在多个可用区，避免由于单个可用区故障而导致所有业务中断。应用

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES01 冗余
RES10-02 应用系统多位置部署 - 云架构中心

RES10-02 应用系统多位置部署通过将应用系统部署在多个位置，可以避免由于一个位置的基础设施故障而导致系统不可用。风险等级高关键策略将应用系统的数据和资源部署在多个AZ，可避免单个AZ故障影响业务。对于可用性要求较高的应用系统，可部署在多个Region，避免单个Region故障影响业务。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES10 故障隔离
RES11-03 长稳测试 - 云架构中心
RES11-03 长稳测试 - 云架构中心

RES11-03 长稳测试基于用户使用场景构建业务模型，自动化构建覆盖系统容量规格70%的业务量，持续7*24小时进行长时间负载测试以评估系统稳定性。风险等级高关键策略模拟各种业务场景进行测试。持续自动测试。测试结果发生偏差时自动告警，以便及时定位和处理。父主题：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES11 可靠性测试
RES12-01 组建应急恢复团队 - 云架构中心

RES12-01 组建应急恢复团队为了应对紧急故障场景，需要组建应急恢复团队，明确责任人，并进行培训。风险等级高关键策略组建应急恢复团队：其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。应急恢复主席：在出现问题后及时组织应急恢复团队进行快速恢复处理。组件或关

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

可靠性功能集群HA Kafka实例通过副本冗余方式实现实例容灾，当检测到leader副本故障后，快速完成副本选主，保障Kafka实例持续提供服务。 RabbitMQ集群提供镜像队列，通过镜像在其他节点同步数据。单节点宕机时，仍可通过唯一的访问地址对外提供服务。 RocketMQ

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
COST03-03 公共成本分配 - 云架构中心

COST03-03 公共成本分配风险等级中关键策略跨团队共享使用的CDN、直播带宽应按照各业务团队的实际带宽占比，将带宽费用拆分到不同的业务团队。跨团队共享使用的CCE集群服务，应按照各团队分配和使用的CPU/内存等比例，将容器集群成本（包含CCE、ECS、EVS等服务成本）拆分到各个业务团队。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST03 对成本进行分配
OPS06-01 建立可观测性体系 - 云架构中心

OPS06-01 建立可观测性体系可观测性（observability）最初是系统理论中的一个概念，指系统的状态能否被外部观察到和重现。随着云原生、微服务架构的发展，IT系统对可观测性的需求日益增强。业界对可观测性的定义：通常是指基于对复杂系统外部输出的了解，能够了解其内部状态

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
OPS07-02 创建监控看板 - 云架构中心

OPS07-02 创建监控看板风险等级高关键策略监控看板为您提供自定义查看监控数据的功能，将您关注的核心服务监控指标集中呈现在一张监控看板里，为您定制一个立体化的监控平台。同时监控看板还支持在一个监控项内对不同服务、不同维度的数据进行对比查看，实现不同云服务间性能数据对比查看。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS07 进行故障分析和管理
PERF04-05 应用性能数据采集 - 云架构中心

码采集独有的性能指标。使用业界可观测的标准。请考虑使用围绕业界标准构建的工具，例如OpenTelemetry。建议：使用分布式的调用链技术，可以识别多个服务和组件之间请求链路；通过收集调用链数据实现数据流端到端的分析，产品阻塞瓶颈点或者效率低下的请求片段，从而进行针对性的优化。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF04 性能分析 > 性能数据采集
PERF04-03 性能测试步骤 - 云架构中心

非性能基线测试则有权进行拒绝验证：对于不合理的非产品基线内容测试则可以进行拒绝验证。基线不合理内容测试则有权利进行质疑，并且能够根据测试数据、现网应用、客户规范、标准等要求与SE、产品经理进行评审，基线变更等。父主题：性能测试

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF04 性能分析 > 性能测试
COST04-02 主动监控成本 - 云架构中心

COST04-02 主动监控成本风险等级中关键策略不要只在出账后或收到异常通知时再查看成本和用量，应使用工具定期检查成本。定期监控和主动分析成本，有助于您及时识别成本趋势，避免异常发生。相关服务和工具创建预算提醒，将预算设置为提醒阈值，在预测或实际成本超出预算时，及时获取超预算通知，防止潜在成本超支。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST04 持续进行成本治理
RES06-03 支持亚健康检测 - 云架构中心

RES06-03 支持亚健康检测系统内组件有可能完全故障，也有可能处于亚健康状态；亚健康是指系统整体业务未超标，但系统中局部实例业务超标。亚健康更多是个相对概念，相对历史表现的统计，或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时，系统也需要及时进行隔离或恢复处理，避免对业务造成影响。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测

总条数： 381

上一页
1
...
11
12
13
...
20
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES06-02 面向所有故障进行检测 - 云架构中心

RES01-03 云服务器反亲和 - 云架构中心

RES05-01 网络连接高可用 - 云架构中心

RES15-02 自动化检查 - 云架构中心

RES15-04 灰度部署和升级 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

SEC10-01 建立安全响应团队 - 云架构中心

RES01-02 应用组件多位置部署 - 云架构中心

RES10-02 应用系统多位置部署 - 云架构中心

RES11-03 长稳测试 - 云架构中心

RES12-01 组建应急恢复团队 - 云架构中心

可靠性功能 - 云架构中心

COST03-03 公共成本分配 - 云架构中心

OPS06-01 建立可观测性体系 - 云架构中心

OPS07-02 创建监控看板 - 云架构中心

PERF04-05 应用性能数据采集 - 云架构中心

PERF04-03 性能测试步骤 - 云架构中心

COST04-02 主动监控成本 - 云架构中心

RES06-03 支持亚健康检测 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线