搜索_华为云

RES07-03 监控到异常后发送消息通知 - 云架构中心

RES07-03 监控到异常后发送消息通知当对应用系统监控发现应用异常后，需要向相应的人员和系统发送实时通知消息和告警，以便及时处理。风险等级中关键策略采用实时快捷的消息通知方式，以便相关人员能及时得到消息。消息发送人员需要涵盖运维人员，以便及时恢复。运维人员需要有备份，避免单点风险。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
SEC04-02 控制网络流量的访问 - 云架构中心

非资源必须接收来自公网的网络流量，否则不要将资源放置在VPC的公有子网中。对于入站和出站流量，应采用深度防御方法。例如对入站流量进行入侵检测、防范恶意的网络攻击。对出站的流量使用NAT网关配置仅出站的单向连接。流量过滤。使用防火墙、ACL控制内部和外部网络之间的访问流量以及内

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC04 网络安全
RES07-01 定义关键指标与阈值并监控 - 云架构中心

RES07-01 定义关键指标与阈值并监控对资源进行监控时，需要先定义资源的关键指标以及对应的阈值，以便快速有效的发现业务表现和系统状态，以便在异常状态下尽早干预恢复，或定位改进系统缺陷。风险等级中关键策略关键指标需要与系统内工作负载的关键性能指标相关，并能确定为系统性

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES12-04 出现问题后尽快恢复业务 - 云架构中心

监控：应用系统需要提供业务监控信息，以便实时了解系统运行状态；维护团队需要有专人观测，并在发现故障发生时，需要及时响应。告警：应用系统在检测到故障后需要及时告警，并能通过短消息、邮件等方式发送给所有相关人员，确保使相关人第一时间得知故障信息，以便快速组织应急响应。预测：维护团

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
设计原则 - 云架构中心
设计原则 - 云架构中心

要综合考虑冗余对成本的影响。故障全面检测故障检测是故障管理的前提，检测全面与检测快速都很重要，通常情况下故障检测全比故障检测快重要。故障检测涉及以下方面：检测范围：识别并跟踪检测所有组件，有重大影响的故障模式需要重点检测。亚健康检测：对不引起系统故障却导致系统或服务KP

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
安全性云服务介绍 - 云架构中心

oS攻击挑战，可提供毫秒级攻击响应、多维度行为分析及机器学习、防御策略自动调优，精确识别各种复杂DDoS攻击，以保护您的业务连续性。威胁检测 Web应用防火墙 WAF：保护网站等Web应用程序免受常见Web攻击，保障业务持续稳定运行，满足合规和监管要求。配置审计 Config

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱
SEC10-03 自动化响应安全事件 - 云架构中心

自动化的响应工作流是安全自动化的核心组成部分，旨在减少安全事件的响应时间，并提高处理效率。风险等级高关键策略定义响应触发条件：基于威胁情报、异常行为检测和实时监测的结果，确定哪些情况会触发自动化响应。制定响应策略：为每种类型的威胁或事件制定具体的响应动作，例如隔离、修复、通知、调查等。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
RES15-03 自动化回滚 - 云架构中心

RES15-03 自动化回滚在升级或部署过程中出现异常，或检查/测试失败时，支持自动回滚，减少人工干预，避免回滚失败。风险等级高关键策略检测到异常后，可一键式回滚。回滚过程自动化完成。父主题： RES15 升级不中断业务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

CCE集群的CPU /内存/磁盘容量使用率过高检测：通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。恢复：根据业务情况，手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高检测：通过AOM监控CCE节点的CPU/内存

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

BMS实例或挂载的磁盘或数据被意外删除检测：NA 恢复：对于无状态业务，使用模板快速发放新实例；对于有状态业务，使用CBR云备份服务对BMS云硬盘进行定期备份，在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障检测：应用层检测物理服务器和本地盘运行状态恢复：应

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > BMS裸金属服务
OPS06-07 通过可观测性指标引入自动化措施 - 云架构中心

OPS06-07 通过可观测性指标引入自动化措施风险等级高关键策略可观测与自动化运维工具联动，实现自动化的故障检测、恢复及弹性伸缩等功能，进一步提升运维响应速度和准确性，降低人为干预带来的延误，甚至错误。父主题： OPS06 可观测性体系

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

/内存/带宽/连接数使用率过高检测：通过CES监控CPU /内存/带宽/连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。应用层进行过载保护，保障优先业务的运行，如将部分性能要求不高的业务切回到原始数据源。连接后端DCS失败检测：连接失败。恢复：应用层进行

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式弹性伸缩失败检测：查看弹性伸缩组的弹性伸缩活动历史。恢复：根据伸缩活动失败描述信息进行修复。父主题： AS弹性伸缩

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > AS弹性伸缩
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

可靠性功能集群HA DCS服务提供主备、Proxy集群、Cluster集群实例，通过节点冗余方式实现实例容灾，当检测到主节点故障后，快速切换到备节点并自动恢复，在异常检测和恢复期间，可能会影响业务，时间在半分钟内。数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到O

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高检测：通过CES监控ELB的并发连接数/新建连接数/带宽使用率。恢复：根据业务情况，采用独享型负载均衡器，并手工调整ELB负载均衡器规格。父主题： ELB弹性负载均衡

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ELB弹性负载均衡
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

ECS实例或挂载的磁盘或数据被意外删除检测：NA 恢复：对于无状态业务，使用模板快速发放新实例；对于有状态业务，使用CBR云备份服务对ECS进行定期备份，在数据被删除时使用备份数据快速恢复。 ECS实例使用本地盘时本地盘故障检测：应用层检测本地盘运行状态。恢复：应用层采用RA

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行过载保护，保障优先业务的运行。 OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。当OBS桶由于过载导致网络限制时，可参考“OBS桶流量过载”的处理。 OBS桶内数据被误删检测：NA 恢复：针对OBS桶启用多

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

可靠性功能集群HA Kafka实例通过副本冗余方式实现实例容灾，当检测到leader副本故障后，快速完成副本选主，保障Kafka实例持续提供服务。 RabbitMQ集群提供镜像队列，通过镜像在其他节点同步数据。单节点宕机时，仍可通过唯一的访问地址对外提供服务。 RocketMQ

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
故障快速恢复 - 云架构中心
故障快速恢复 - 云架构中心

故障快速恢复当应用系统采用华为云服务的高可用设计时，在云服务实例发生故障后，云服务能自动检测和恢复；但对于应用系统本身的故障，需要应用系统自身进行检测和快速恢复处理，以保证系统能够正常运行，从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 CPU /内存/磁盘/带宽使用率过高检测：通过CES监控CPU /内存/磁盘/带宽使用率。恢复：当CPU/内存使用高时，可根据业务情况，手工修改代理规格或增加代理数量以扩展资源。当磁盘使用率高时，可根据业务情况，修改实例存储空间支持更大存储空间。当带宽使用

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务

总条数： 78

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES07-03 监控到异常后发送消息通知 - 云架构中心

SEC04-02 控制网络流量的访问 - 云架构中心

RES07-01 定义关键指标与阈值并监控 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

设计原则 - 云架构中心

安全性云服务介绍 - 云架构中心

SEC10-03 自动化响应安全事件 - 云架构中心

RES15-03 自动化回滚 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

OPS06-07 通过可观测性指标引入自动化措施 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

可靠性功能 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

可靠性功能 - 云架构中心

故障快速恢复 - 云架构中心

常见故障模式 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线