搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

BMS实例或挂载的磁盘或数据被意外删除检测：NA 恢复：对于无状态业务，使用模板快速发放新实例；对于有状态业务，使用CBR云备份服务对BMS云硬盘进行定期备份，在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障检测：应用层检测物理服务器和本地盘运行状态恢复：应

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > BMS裸金属服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式弹性伸缩失败检测：查看弹性伸缩组的弹性伸缩活动历史。恢复：根据伸缩活动失败描述信息进行修复。父主题： AS弹性伸缩

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > AS弹性伸缩
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

/内存/带宽/连接数使用率过高检测：通过CES监控CPU /内存/带宽/连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。应用层进行过载保护，保障优先业务的运行，如将部分性能要求不高的业务切回到原始数据源。连接后端DCS失败检测：连接失败。恢复：应用层进行

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
OPS06-07 通过可观测性指标引入自动化措施 - 云架构中心

OPS06-07 通过可观测性指标引入自动化措施风险等级高关键策略可观测与自动化运维工具联动，实现自动化的故障检测、恢复及弹性伸缩等功能，进一步提升运维响应速度和准确性，降低人为干预带来的延误，甚至错误。父主题： OPS06 可观测性体系

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

可靠性功能集群HA DCS服务提供主备、Proxy集群、Cluster集群实例，通过节点冗余方式实现实例容灾，当检测到主节点故障后，快速切换到备节点并自动恢复，在异常检测和恢复期间，可能会影响业务，时间在半分钟内。数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到O

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
SEC09-02 安全事件记录及分析 - 云架构中心

在发生安全事件之前，可以考虑构建取证能力来支持安全事件调查工作。记录攻击和异常行为并对其分析：应在关键网络节点处（例如内外网的交界处、ELB流量转发处等）检测、防止或限制网络攻击行为；应采取技术措施对采集的安全日志进行持续监控和分析，实现对网络攻击特别是新型网络攻击行为和异常行为的识别和分析。风险等级

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC09 安全感知及分析
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高检测：通过CES监控ELB的并发连接数/新建连接数/带宽使用率。恢复：根据业务情况，采用独享型负载均衡器，并手工调整ELB负载均衡器规格。父主题： ELB弹性负载均衡

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ELB弹性负载均衡
PERF03-04 选择合适类型的网络云服务 - 云架构中心

与华为云服务之间建立连接，而无需将数据暴露于互联网；提供性能更加强大、更加灵活的网络。接入网络（用户<->PoP） DNS 提供高可用，高扩展的权威DNS服务和DNS管理服务，将最终用户路由到互联网应用程序的可靠且经济高效的方法。 EIP 提供独立的公网IP资源，连接公共互联网和V

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模 > 选择合适网络服务资源
RES04-02 部署容灾系统以满足容灾目标 - 云架构中心

现跨Region的数据双写，以进行数据同步。接入侧主Region与灾备Region各自申请外部IP，并通过DNS域名解析到主Region，在主Region故障时，将DNS域名对应IP地址修改为灾备Region中的外部IP。申请MAS多活高可用服务，进行容灾编排，以便在灾难场景快速主备切换恢复业务。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES04 跨Region/跨云容灾
安全性云服务介绍 - 云架构中心

防风险，同时，可以让威胁检测和响应更智能、更快速，帮助您实现一体化、自动化安全运营管理，满足您的安全需求。威胁检测服务 MTD：威胁检测服务持续发现恶意活动和未经授权的行为，从而保护账户和工作负载。该服务通过集成AI智能引擎、威胁黑白名单、规则基线等检测模型，识别各类云服务日志

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

ECS实例或挂载的磁盘或数据被意外删除检测：NA 恢复：对于无状态业务，使用模板快速发放新实例；对于有状态业务，使用CBR云备份服务对ECS进行定期备份，在数据被删除时使用备份数据快速恢复。 ECS实例使用本地盘时本地盘故障检测：应用层检测本地盘运行状态。恢复：应用层采用RA

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

可靠性功能集群HA Kafka实例通过副本冗余方式实现实例容灾，当检测到leader副本故障后，快速完成副本选主，保障Kafka实例持续提供服务。 RabbitMQ集群提供镜像队列，通过镜像在其他节点同步数据。单节点宕机时，仍可通过唯一的访问地址对外提供服务。 RocketMQ

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 CPU /内存/磁盘/带宽使用率过高检测：通过CES监控CPU /内存/磁盘/带宽使用率。恢复：当CPU/内存使用高时，可根据业务情况，手工修改代理规格或增加代理数量以扩展资源。当磁盘使用率高时，可根据业务情况，修改实例存储空间支持更大存储空间。当带宽使用

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

数使用率过高检测：通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。开启存储空间自动扩容，以便在磁盘容量不足时自动扩容。应用层进行过载保护，保障优先业务的运行。连接后端RDS失败检测：连接失败。恢复：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

可靠性功能数据持久性 OBS通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案，提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。其数据持久性高达99.9999999999%（12个9），可用性高达99.995%，远高于传统架构。详见“OBS的持久性和可用性如何

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
RES13-01 采用自动弹性扩缩容 - 云架构中心

OBS、SFS、FunctionGraph等服务会根据请求量自动扩展业务处理能力，用户无感知。 RDS服务最多支持5个只读副本，可在线扩展只读负载；一键规格变更实现CPU、内存扩容/缩容；在线存储容量扩容。 CCE服务支持配置自动扩容集群节点和工作负载，伸缩策略支持告警（按CPU或内存使用率触发）、定时、周期多种方式。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 GaussDB(for MySQL)的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高检测：通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。开启自动扩缩容，以便在过载时自动扩容规格和/或只读节点。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > GaussDB(for MySQL)云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行过载保护，保障优先业务的运行。 OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。当OBS桶由于过载导致网络限制时，可参考“OBS桶流量过载”的处理。 OBS桶内数据被误删检测：NA 恢复：针对OBS桶启用多

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
RES12-04 出现问题后尽快恢复业务 - 云架构中心

监控：应用系统需要提供业务监控信息，以便实时了解系统运行状态；维护团队需要有专人观测，并在发现故障发生时，需要及时响应。告警：应用系统在检测到故障后需要及时告警，并能通过短消息、邮件等方式发送给所有相关人员，确保使相关人第一时间得知故障信息，以便快速组织应急响应。预测：维护团

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
设计原则 - 云架构中心
设计原则 - 云架构中心

要综合考虑冗余对成本的影响。故障全面检测故障检测是故障管理的前提，检测全面与检测快速都很重要，通常情况下故障检测全比故障检测快重要。故障检测涉及以下方面：检测范围：识别并跟踪检测所有组件，有重大影响的故障模式需要重点检测。亚健康检测：对不引起系统故障却导致系统或服务KP

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱

总条数： 84

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

OPS06-07 通过可观测性指标引入自动化措施 - 云架构中心

可靠性功能 - 云架构中心

SEC09-02 安全事件记录及分析 - 云架构中心

常见故障模式 - 云架构中心

PERF03-04 选择合适类型的网络云服务 - 云架构中心

RES04-02 部署容灾系统以满足容灾目标 - 云架构中心

安全性云服务介绍 - 云架构中心

常见故障模式 - 云架构中心

可靠性功能 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

可靠性功能 - 云架构中心

RES13-01 采用自动弹性扩缩容 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

设计原则 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线