搜索_华为云

OPS06-03 制定和实施可观测性指标 - 云架构中心

用，例如Prometheus、Grafana、Zabbix等，以及华为云提供的云监控服务CES。这些工具可以定期收集指标，提供可视化的指标报告，并且可以发送警报，以帮助组织及时发现问题。可参考CES的最佳实践，https://support.huaweicloud.com/be

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
RES07-03 监控到异常后发送消息通知 - 云架构中心

监控到异常后发送消息通知当对应用系统监控发现应用异常后，需要向相应的人员和系统发送实时通知消息和告警，以便及时处理。风险等级中关键策略采用实时快捷的消息通知方式，以便相关人员能及时得到消息。消息发送人员需要涵盖运维人员，以便及时恢复。运维人员需要有备份，避免单点风险。 SMN消息通知

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
SEC10-01 建立安全响应团队 - 云架构中心

安全响应专家：主导网络安全事件调查，负责对事件进行定级、通报、攻击溯源以及确定影响范围，制定应急处置措施，推动服务控制风险。攻击溯源专家：根据攻击的IOC信息进行溯源，追溯攻击者信息，攻击范围（无遗漏），攻击溯源图（攻击路径）和攻击溯源报告，确认攻击事件性质。高级分析专家：漏洞分析及复

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
PERF02-02 容量规划 - 云架构中心

源，以满足系统的性能要求。计算资源：根据预测的需求，计算所需的CPU、GPU、内存等计算资源，并根据实际情况进行选择和配置。存储资源：根据预测的需求，计算所需的存储空间，例如需要存储大量的数据，可能需要选择分布式存储系统。网络带宽：根据预测的需求，计算所需的网络带宽，例如需

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF02 性能规划 > 性能规划
RES07-02 日志统计监控 - 云架构中心

RES07-02 日志统计监控应用系统需要收集日志，在必要时对日志进行统计分析，设置告警规则触发告警，统计分析的内容可以是统计一定时间段内某些关键字出现的次数。风险等级中关键策略日志关键字与出现次数阈值需要合理设置，以免监控信息不正确。日志信息（如关键字或出现频率）发生变化时，需要及时更新告警规则。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES13-03 过载检测与流量控制 - 云架构中心

相关云服务和工具华为云提供了一些内嵌流控保护的云服务，用户可直接配置使用： API网关 APIG：支持配置流控策略，用户可指定单位时间内的单个API、单个用户或单个APP的请求次数上限。微服务引擎 CSE：支持限流，用户可指定一定时间内可接受的请求次数上限。父主题： RES13 过载保护

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
SEC09-02 安全事件记录及分析 - 云架构中心

记录攻击和异常行为并对其分析：应在关键网络节点处（例如内外网的交界处、ELB流量转发处等）检测、防止或限制网络攻击行为；应采取技术措施对采集的安全日志进行持续监控和分析，实现对网络攻击特别是新型网络攻击行为和异常行为的识别和分析。风险等级高关键策略在发生安全事件之前，可以

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC09 安全感知及分析
OPS05-02 进行变更风控 - 云架构中心

）时引发的业务中断风险及变更失败可能导致的业务受损风险。设计建议变更风控衡量指标：变更风控衡量指标为变更导致事件密度和变更引入重大事件数。变更导致事件密度定义：每月变更导致对客户造成影响的事件数与总变更数的比值。计算公式：变更导致事件密度=变更导致对客户造成影响的事件数/总变更数。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS05 运维准备和变更管理
应用运维管理(AOM2.0) - 云架构中心

Management，简称AOM）是云上应用的一站式立体化运维管理平台，融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源，提供应用资源统一管理、一站式可观测性分析和自动化运维方案，帮助用户及时发现故障，全面掌握应用、资源及业务的实时运行状况，提升企业海量运维的自动化能力和效率。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 卓越运营云服务介绍
云运维中心(COC) - 云架构中心
云运维中心(COC) - 云架构中心

要求，降低管理成本。资源管理：同步并纳管用户在云平台上使用的资源实例，构筑资源运维能力底座。配置管理：提供应用和资源视角的管理能力，以及参数配置集中式看护、全生命周期管理的能力。合规性管理：资源运维提供批量的补丁扫描修复能力，安全合规先行，兼顾高效。全方位变更管理方案评

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 卓越运营云服务介绍
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

保存期限无限制。 DCS指定备份集恢复。恢复过程中，实例会有一段时间不能处理客户端的数据操作请求，当前数据将被删除，待恢复完成后存储原有备份数据。详见“备份与恢复说明”。跨AZ容灾 DCS提供的主备、Cluster集群、Proxy集群实例支持跨AZ容灾，当一个AZ异常时，另一

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
RES03-04 支持容灾管理 - 云架构中心

RES03-04 支持容灾管理提供容灾管理功能，实现容灾状态及RPO监控，及异常场景下的业务切换。风险等级高关键策略实时监控容灾状态，了解容灾运行状态。支持应用级数据校验，比较AZ间数据同步差异，监控及PO指标。典型确定性故障场景下自动容灾或切换，无需人工接入，业务不受影响，满足RPO/RTO指标。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

当磁盘使用率高时，可根据业务情况，修改实例存储空间支持更大存储空间。当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行过载保护，保障优先业务的运行。 OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。当OBS桶由于过载导致网络限制时，可参考“OBS桶流量过载”的处理。 OBS桶内数据被误删检测：NA

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务
选择合适网络服务资源 - 云架构中心

选择合适网络服务资源选择合适的网络服务资源是一个复杂的过程，需要考虑许多因素。以下提供了一些主要因素：评估合适网络云服务，主要考虑如下性能指标：网络流量：评估工作负载的预期网络流量，了解数据传输需求和网络请求的频率。带宽要求：确定工作负载的带宽要求，考虑通过网络传输和接收的数据量。网络

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模
PERF03 性能建模 - 云架构中心
PERF03 性能建模 - 云架构中心

PERF03 性能建模选择合适的计算资源选择合适网络服务资源选择合适的存储云服务选择合适的应用中间件云服务资源选择合适的数据库资源父主题：性能效率支柱

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱
故障快速恢复 - 云架构中心
故障快速恢复 - 云架构中心

故障快速恢复当应用系统采用华为云服务的高可用设计时，在云服务实例发生故障后，云服务能自动检测和恢复；但对于应用系统本身的故障，需要应用系统自身进行检测和快速恢复处理，以保证系统能够正常运行，从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
DMS分布式消息服务 - 云架构中心

DMS分布式消息服务 DMS分布式消息服务支持以下各种消息类型： Kafka版：基于开源社区版Kafka提供的消息队列服务，向用户提供计算、存储和带宽资源独占式的Kafka专享实例。 RabbitMq版：完全兼容开源RabbitMQ，提供即开即用、消息特性丰富、灵活路由、高可用、

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍
DCS分布式缓存服务 - 云架构中心

分布式缓存服务（Distributed Cache Service，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。可靠性功能常见故障模式父主题：云服务可靠性介绍

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍

总条数： 272

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

OPS06-03 制定和实施可观测性指标 - 云架构中心

RES07-03 监控到异常后发送消息通知 - 云架构中心

SEC10-01 建立安全响应团队 - 云架构中心

PERF02-02 容量规划 - 云架构中心

RES07-02 日志统计监控 - 云架构中心

RES13-03 过载检测与流量控制 - 云架构中心

SEC09-02 安全事件记录及分析 - 云架构中心

OPS05-02 进行变更风控 - 云架构中心

应用运维管理(AOM2.0) - 云架构中心

云运维中心(COC) - 云架构中心

可靠性功能 - 云架构中心

RES03-04 支持容灾管理 - 云架构中心

常见故障模式 - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

常见故障模式 - 云架构中心

选择合适网络服务资源 - 云架构中心

PERF03 性能建模 - 云架构中心

故障快速恢复 - 云架构中心

DMS分布式消息服务 - 云架构中心

DCS分布式缓存服务 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线