搜索_华为云

问题和检查项 - 云架构中心
问题和检查项 - 云架构中心

问题和检查项企业在进行应用韧性设计的过程中，推荐使用如下问题寻找自身可以改进的点，并参考检查项/最佳实践进行改进，以下所有检查项，也是最佳实践建议，将在下一章节进行详细描述。问题检查项/最佳实践 RES01 您如何使用冗余技术确保应用系统的高可用？应用组件高可用部署应用组件多位置部署

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

CCE集群的CPU /内存/磁盘容量使用率过高检测：通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。恢复：根据业务情况，手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高检测：通过AOM监控CCE节点的CPU

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎
OPS06-07 通过可观测性指标引入自动化措施 - 云架构中心

OPS06-07 通过可观测性指标引入自动化措施风险等级高关键策略可观测与自动化运维工具联动，实现自动化的故障检测、恢复及弹性伸缩等功能，进一步提升运维响应速度和准确性，降低人为干预带来的延误，甚至错误。父主题： OPS06 可观测性体系

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 DCS的CPU /内存/带宽/连接数使用率过高检测：通过CES监控CPU /内存/带宽/连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。应用层进行过载保护，保障优先业务的运行，如将部分性能要求不高的业务切回到原始数据源。连接后端DCS失败检测：连接失败。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式弹性伸缩失败检测：查看弹性伸缩组的弹性伸缩活动历史。恢复：根据伸缩活动失败描述信息进行修复。父主题： AS弹性伸缩

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > AS弹性伸缩
OPS04-03 基础设施即代码 - 云架构中心

IaC 的更好的整体选择。声明性工具对其定义文件使用更简单的语法，仅定义部署完成后所需的环境状态。命令式工具需定义达到所需最终状态所需的步骤，因此文件可能比声明性文件复杂得多。声明性定义文件还有助于减少维护命令式代码（例如部署脚本）的技术债务，这些技术债务会随着时间的推移而增加。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS04 自动化构建和部署流程
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

DCS服务提供主备、Proxy集群、Cluster集群实例，通过节点冗余方式实现实例容灾，当检测到主节点故障后，快速切换到备节点并自动恢复，在异常检测和恢复期间，可能会影响业务，时间在半分钟内。数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到OBS中，以便在缓存实例发生异常后能够从备份

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

d状态显示正常，但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针：存活探针：livenessProbe，用于检测容器是否正常，类似于执行ps命令检查进程是否存在。如果容器的存活检查失败，集群会对该容器执行重启操作；若容器的存活检查成功则不执行任何操作。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高检测：通过CES监控ELB的并发连接数/新建连接数/带宽使用率。恢复：根据业务情况，采用独享型负载均衡器，并手工调整ELB负载均衡器规格。父主题： ELB弹性负载均衡

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ELB弹性负载均衡
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

重试”。当ECS由于过载导致网络限制时，可参考“ECS的CPU /内存/磁盘容量/磁盘IOPS使用率过高”的处理。 ECS实例不可用或运行异常检测：配置ELB弹性负载均衡器的后端服务器健康检查，以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。恢复：针

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
SEC07-03 对数据操作实施监控 - 云架构中心

据库行为，形成细粒度的审计报告，对风险行为和攻击行为进行实时告警，对数据库的内部违规和不正当操作进行定位追责，保障数据资产安全。启用数据库安全审计告警。通过设置告警通知，当数据库发生设置的告警事件时，用户可以收到 DBSS 发送的告警通知，及时了解数据库的安全风险。使用云堡垒

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 数据安全与隐私保护 > SEC07 通用数据安全
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

例节点、实例主题、实例分区、实例分区的消费组、实例队列的消费组、实例的消费组等进行监控和告警。详见“支持的监控指标”。 RabbitMQ：配合CES服务，支持对RabbitMQ实例、实例节点、实例队列进行监控和告警等进行监控和告警。详见“支持的监控指标”。 RocketMQ：配合

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

OBS通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案，提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。其数据持久性高达99.9999999999%（12个9），可用性高达99.995%，远高于传统架构。详见“OBS的持久性和可用性如何

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
设计原则 - 云架构中心
设计原则 - 云架构中心

情况下故障检测全比故障检测快重要。故障检测涉及以下方面：检测范围：识别并跟踪检测所有组件，有重大影响的故障模式需要重点检测。亚健康检测：对不引起系统故障却导致系统或服务KPI下降的亚健康异常需要能检测，如网络时延变大、磁盘变慢、内存泄露等亚健康故障。备用检测：冗余系统中，

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法写入成功，可将数据写入本地缓存，待服务可用后再写入实例。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。当OBS桶由于过载导致网络限制时，可参考“OBS桶流量过载”的处理。 OBS桶内数据被误删检测：NA 恢复：针对OBS桶启用多版本控制，在数据被删除时使用历史版本快速恢复。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
SEC10-03 自动化响应安全事件 - 云架构中心

自动化响应安全事件自动化的响应工作流是安全自动化的核心组成部分，旨在减少安全事件的响应时间，并提高处理效率。风险等级高关键策略定义响应触发条件：基于威胁情报、异常行为检测和实时监测的结果，确定哪些情况会触发自动化响应。制定响应策略：为每种类型的威胁或事件制定具体的响应动作，例如隔离、修复、通知、调查等。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行过载保护，保障优先业务的运行。连接后端RDS失败检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如RDS实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。当RDS实例由于过载导致网络限制时，可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
RES12-04 出现问题后尽快恢复业务 - 云架构中心

应用系统出现故障后，需要能尽快发现，尽快响应。风险等级高关键策略可以通过以下途径实现故障的快速发现：监控：应用系统需要提供业务监控信息，以便实时了解系统运行状态；维护团队需要有专人观测，并在发现故障发生时，需要及时响应。告警：应用系统在检测到故障后需要及时告警，并能通过短消息、邮件等方式发送给所有相关

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
OPS06-05 实施依赖项遥测 - 云架构中心

依赖项遥测可以监控工作负载所依赖的外部服务和组件的运行状况及性能。提供有关与 DNS、数据库或第三方 API 等依赖项相关的可访问性、超时及其他关键事件的高价值指标采集。当对应用程序进行检测，以发布有关这些依赖项的指标、日志和跟踪时，就能更清楚地了解可能影响工作负载的潜在瓶颈、性能问题或故障。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系

总条数： 336

上一页
1
2
3
4
5
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

问题和检查项 - 云架构中心

常见故障模式 - 云架构中心

OPS06-07 通过可观测性指标引入自动化措施 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

OPS04-03 基础设施即代码 - 云架构中心

可靠性功能 - 云架构中心

可靠性功能 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

SEC07-03 对数据操作实施监控 - 云架构中心

可靠性功能 - 云架构中心

可靠性功能 - 云架构中心

设计原则 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

SEC10-03 自动化响应安全事件 - 云架构中心

常见故障模式 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

OPS06-05 实施依赖项遥测 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线