搜索_华为云

RES06-03 支持亚健康检测 - 云架构中心

RES06-03 支持亚健康检测系统内组件有可能完全故障，也有可能处于亚健康状态；亚健康是指系统整体业务未超标，但系统中局部实例业务超标。亚健康更多是个相对概念，相对历史表现的统计，或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时，系统也需要及时进行隔离或恢复处理，避免对业务造成影响。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES09-01 API及命令调用需要设计为可重试 - 云架构中心

RES09-01 API及命令调用需要设计为可重试在进行重试处理时，API及命令调用会重复发送，服务方会多次重复执行，需要保证重复执行多次的结果不变。风险等级高关键策略应用系统在设计时，应使操作具有幂等性，也就是允许一个操作连续执行两次或多次时，应该与单次调用产生的结果相同，从而保

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES09 故障重试
RES13-03 过载检测与流量控制 - 云架构中心

相关云服务和工具华为云提供了一些内嵌流控保护的云服务，用户可直接配置使用： API网关 APIG：支持配置流控策略，用户可指定单位时间内的单个API、单个用户或单个APP的请求次数上限。微服务引擎 CSE：支持限流，用户可指定一定时间内可接受的请求次数上限。父主题： RES13 过载保护

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
故障全面检测 - 云架构中心
故障全面检测 - 云架构中心

故障全面检测高可用性系统必须具有完善的故障检测能力，以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障，以及潜在的故障的事件。在几乎所有情况下，故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警父主题：韧性支柱

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
RES06 故障检测 - 云架构中心
RES06 故障检测 - 云架构中心

RES06 故障检测 RES06-01 故障模式分析 RES06-02 面向所有故障进行检测 RES06-03 支持亚健康检测父主题：故障全面检测

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测
RES06-02 面向所有故障进行检测 - 云架构中心

针对具体故障进行检测时，根据检测的类型通常可以分为资源检测、功能检测和业务检测。资源检测：云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源，具体包含CPU、内存、网络和磁盘资源等。功能检测：对组成产品系统的各个内部模块对象进行检测的过程，确定模块功能是否满足设计的需求。当产品

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
COST07-01 持续监控资源利用率指标 - 云架构中心

COST07-01 持续监控资源利用率指标风险等级高关键策略持续地在组织中定义资源的核心利用率指标（如CPU利用率，内存，CDN服务的流量，数据库的TPS），按（天、周、月）等时间周期发现规律，对低利用率资源的应用/项目进行审查。父主题： COST07 管理和优化资源

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST07 管理和优化资源
RES07 监控告警 - 云架构中心
RES07 监控告警 - 云架构中心

RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息父主题：故障全面检测

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测
RES07-05 端到端跟踪请求消息 - 云架构中心

的监控，可视化地还原业务的执行路线和状态，协助性能及故障快速定位。在查询后的调用链列表中，单击待查看的调用链的链接，查看该调用链基本信息。调用链详情页面可以查看调用链的完整链路信息，包含本地方法堆栈和相关远程调用的调用关系。调用链与日志关联，提高用户体验。用户可以从调用链直接跳转LTS查看日志。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES07-01 定义关键指标与阈值并监控 - 云架构中心

对资源进行监控时，需要先定义资源的关键指标以及对应的阈值，以便快速有效的发现业务表现和系统状态，以便在异常状态下尽早干预恢复，或定位改进系统缺陷。风险等级中关键策略关键指标需要与系统内工作负载的关键性能指标相关，并能确定为系统性能下降的早期警告信号，如系统处理的API数量及成功率，相

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
缓存性能优化 - 云架构中心
缓存性能优化 - 云架构中心

头上避免此类问题带来的影响。设计合理的Key中元素的数量。对于集合和列表类的数据结构（例如Hash，Set，List等），避免其中包含过多元素，建议单Key中的元素不要超过5000个。建议由于某些命令（例如HGETALL）的时间复杂度直接与Key中的元素数量相关。如果频繁

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍
RES07-02 日志统计监控 - 云架构中心

RES07-02 日志统计监控应用系统需要收集日志，在必要时对日志进行统计分析，设置告警规则触发告警，统计分析的内容可以是统计一定时间段内某些关键字出现的次数。风险等级中关键策略日志关键字与出现次数阈值需要合理设置，以免监控信息不正确。日志信息（如关键字或出现频率）发生变化时，需要及时更新告警规则。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES07-03 监控到异常后发送消息通知 - 云架构中心

监控到异常后发送消息通知当对应用系统监控发现应用异常后，需要向相应的人员和系统发送实时通知消息和告警，以便及时处理。风险等级中关键策略采用实时快捷的消息通知方式，以便相关人员能及时得到消息。消息发送人员需要涵盖运维人员，以便及时恢复。运维人员需要有备份，避免单点风险。 SMN消息通知

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
PERF05-03 WEB场景资源优化 - 云架构中心

使用缓存技术，如 CDN 、 Redis 等，提高数据访问速度。代码优化: 对云服务资源使用的代码进行优化，提高代码执行效率。数据库优化: 对云服务资源使用的数据库进行优化，如索引优化、查询优化等。负载均衡: 使用负载均衡技术，将请求分发到多个云服务资源，提高系统的处理能力。监控和调整:

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF05 性能优化 > 资源优化
RES06-01 故障模式分析 - 云架构中心

故障模式分析是在系统分析和设计过程，通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析，并把每一种潜在故障模式按它的严酷度予以分类，找出单点故障和产品的薄弱环节，提出可以采取的预防改进措施，以提高产品可靠性的一种设计方法。当应用系统部署在华为云中时，华为云提供了基础设施的故障管理，应用系统可减少对

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
SEC09-02 安全事件记录及分析 - 云架构中心

记录攻击和异常行为并对其分析：应在关键网络节点处（例如内外网的交界处、ELB流量转发处等）检测、防止或限制网络攻击行为；应采取技术措施对采集的安全日志进行持续监控和分析，实现对网络攻击特别是新型网络攻击行为和异常行为的识别和分析。风险等级高关键策略在发生安全事件之前，可以

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC09 安全感知及分析
RES15-03 自动化回滚 - 云架构中心

RES15-03 自动化回滚在升级或部署过程中出现异常，或检查/测试失败时，支持自动回滚，减少人工干预，避免回滚失败。风险等级高关键策略检测到异常后，可一键式回滚。回滚过程自动化完成。父主题： RES15 升级不中断业务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
COST03-03 公共成本分配 - 云架构中心

COST03-03 公共成本分配风险等级中关键策略跨团队共享使用的CDN、直播带宽应按照各业务团队的实际带宽占比，将带宽费用拆分到不同的业务团队。跨团队共享使用的CCE集群服务，应按照各团队分配和使用的CPU/内存等比例，将容器集群成本（包含CCE、ECS、EVS等服务成本）拆分到各个业务团队。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST03 对成本进行分配
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

CCE集群的CPU /内存/磁盘容量使用率过高检测：通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。恢复：根据业务情况，手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高检测：通过AOM监控CCE节点的CPU

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎

总条数： 336

上一页
1
2
3
4
5
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES06-03 支持亚健康检测 - 云架构中心

RES09-01 API及命令调用需要设计为可重试 - 云架构中心

RES13-03 过载检测与流量控制 - 云架构中心

故障全面检测 - 云架构中心

RES06 故障检测 - 云架构中心

RES06-02 面向所有故障进行检测 - 云架构中心

COST07-01 持续监控资源利用率指标 - 云架构中心

RES07 监控告警 - 云架构中心

RES07-05 端到端跟踪请求消息 - 云架构中心

RES07-01 定义关键指标与阈值并监控 - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

缓存性能优化 - 云架构中心

RES07-02 日志统计监控 - 云架构中心

RES07-03 监控到异常后发送消息通知 - 云架构中心

PERF05-03 WEB场景资源优化 - 云架构中心

RES06-01 故障模式分析 - 云架构中心

SEC09-02 安全事件记录及分析 - 云架构中心

RES15-03 自动化回滚 - 云架构中心

COST03-03 公共成本分配 - 云架构中心

常见故障模式 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线