搜索_华为云

RES06-02 面向所有故障进行检测 - 云架构中心

但大多数方法中都只包括足够的额外信息来检测数据是否有效。典型的方法如奇偶校验和CRC（循环冗余校验）。比较测试：当系统具有冗余时，可以使两个系统并行进行计算，然后对结果进行比较，如果结果不匹配则认为发生了故障。这种概念也称为表决。比较可以在系统的任何层次上进行，包括在一条内存总线上的cycle

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
基础概念 - 云架构中心
基础概念 - 云架构中心

记录、显示和处理的活动。 CMDB 配置管理数据库（configuration management database）简称CMDB，是信息技术基础架构库（ITIL）用语，是组织用来储存软体硬体资产（常称为形态项目，CI）资讯的数据库。用CMDB来追踪资产（例如产品、系统、软体、

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱
Spark性能优化 - 云架构中心
Spark性能优化 - 云架构中心

结合SQL、Streaming、MLlib、GraphX等形成数据处理栈，提供一站式数据处理能力。完美契合Hadoop生态环境，Spark应用可以运行在Standalone、Mesos或者YARN上，能够接入HDFS、HBase、Hive等多种数据源，支持MapReduce程序平滑转接。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 大数据性能优化
RES14-04 提供runbook进行标准化变更 - 云架构中心

RES14-04 提供runbook进行标准化变更 runbook是指运行手册，是用来实现变更的详细操作过程。变更前需提供标准化runbook用于变更和回退，变更过程中严格按照runbook执行，在变更失败时根据runbook进行回退。风险等级高关键策略 runbook需

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
RES08-01 减少强依赖项 - 云架构中心

依赖项长时间无法访问时，应用程序应能继续执行其核心功能，以便将局部故障对整体系统功能的影响减到最小。如所依赖的数据丢失时，应用程序仍能运行，但可以提供稍微陈旧的数据、替代数据，甚至没有数据，应用仍处于可预测和可恢复的状态。避免启动依赖及循环依赖。若应用系统由于某些原因导致重

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES08 依赖减少与降级
RES03-04 支持容灾管理 - 云架构中心

RES03-04 支持容灾管理提供容灾管理功能，实现容灾状态及RPO监控，及异常场景下的业务切换。风险等级高关键策略实时监控容灾状态，了解容灾运行状态。支持应用级数据校验，比较AZ间数据同步差异，监控及PO指标。典型确定性故障场景下自动容灾或切换，无需人工接入，业务不受影响，满足RPO/RTO指标。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

当磁盘使用率高时，可根据业务情况，修改实例存储空间支持更大存储空间。当带宽使用率高时，可根据业务情况，变更规格以支持更大带宽。应用层进行过载保护，保障优先业务的运行。生产消息失败检测：生产消息失败恢复：应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法写

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
选择合适的计算资源 - 云架构中心

求，包括实例类型、可伸缩性和容器化等因素。不同的计算服务具有不同的功能和特征，可能会影响工作负载的性能。选择最佳计算服务以确保工作负载高效运行。请考虑以下策略：了解实例类型不同的实例类型针对不同的工作负载进行优化，例如CPU优化、内存优化和GPU优化，选择符合需求的实例类型。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模
应用运维管理(AOM2.0) - 云架构中心

数据等多维度可观测性数据源，提供应用资源统一管理、一站式可观测性分析和自动化运维方案，帮助用户及时发现故障，全面掌握应用、资源及业务的实时运行状况，提升企业海量运维的自动化能力和效率。父主题：卓越运营云服务介绍

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 卓越运营云服务介绍
RES04-03 容灾恢复过程自动化 - 云架构中心

容灾管理功能，实现容灾状态及RPO监控，以及灾难场景下的一键式自动切换，减少人工干预。风险等级高关键策略实时监控容灾状态，了解容灾运行状态。支持应用级数据校验，比较AZ间数据同步差异，监控及PO指标。灾难场景下的一键式自动切换，减少人工干预，满足RPO/RTO指标。支持容灾恢复流程编排、容灾演练等功能。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES04 跨Region/跨云容灾
PERF05 性能优化 - 云架构中心
PERF05 性能优化 - 云架构中心

PERF05 性能优化性能优化工作中，需警惕“过早优化”的问题。我们的基本指导策略还是首先让系统运行起来，再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候，才应进行优化。除非用专门的工具分析瓶颈，否则很有可能是在浪费自己的时间。另外，性能优化的隐含

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱
人工智能性能优化 - 云架构中心

最佳实践文档。训练显存优化实践 pytorch的内存池基本管理策略 pytorch的内存池以block为粒度来进行管理，block池分为小内存池与大内存池，block是pytorch向device驱动申请内存的粒度，整存整取。用户/Pytorch代码向内存池申请内存的接口归一为

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍
OPS03-04 对生产环境进行拨测 - 云架构中心

能、端口性能、文件传输、音视频体验等场景进行周期性监控，支持多维度分析性能指标。利用可视化性能数据及时对业务质量作出反应，保证业务稳定正常运行。父主题： OPS03 完备的测试验证体系

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS03 完备的测试验证体系
OPS04-04 自动化工程运维任务 - 云架构中心

计划发生，作为对事件或监视警报的响应，或者根据外部因素的需要而发生。可以解放运维工程师的任务：为应用的DevOps团队提供自动服务，通过运行的脚本自动执行运维操作步骤。例如，客户引入多租户解决方案时，数据库管理员经常收到创建新数据库的请求。如果为运营人员构建自助服务门户，则可以让他们自己安全地创建空数据库。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS04 自动化构建和部署流程
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。相关云服务和工具

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES12-04 出现问题后尽快恢复业务 - 云架构中心

监控：应用系统需要提供业务监控信息，以便实时了解系统运行状态；维护团队需要有专人观测，并在发现故障发生时，需要及时响应。告警：应用系统在检测到故障后需要及时告警，并能通过短消息、邮件等方式发送给所有相关人员，确保使相关人第一时间得知故障信息，以便快速组织应急响应。预测：维护团队需要根据系统运行现状，通过数据分析

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
SEC01-06 识别并验证安全措施 - 云架构中心

SEC01-06 识别并验证安全措施根据团队制定的安全基线以及威胁建模分析的结果，对工作负载中涉及的安全措施进行验证，以确保它们按照预期方式运行并有效地保护系统，从而缓解或消除安全威胁。风险等级高关键策略依据系统的安全设计文档，通过验证确保安全措施被正确地集成到系统中，并符合最佳实践和标准。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 云安全治理策略 > SEC01 云安全治理策略
SEC01-05 实施威胁建模分析 - 云架构中心

别威胁理解系统的安全风险，发现系统设计中的安全问题，制定消减措施，降低系统风险，提升系统安全性和韧性。风险等级高关键策略以下是系统运行期间的威胁模型：该模型中涉及的概念如下：威胁主体：有企图的利用脆弱性的实体称为威胁主体；威胁主体可以是人、程序、硬件或系统。脆弱性：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 云安全治理策略 > SEC01 云安全治理策略
RES08-03 减少被依赖项故障的影响 - 云架构中心

减少被依赖项故障的影响被依赖项自身的可用性需要增强，以减少对依赖它的组件的影响。风险等级中关键策略对于被依赖项本身，为减少由于服务故障或运行缓慢对依赖它的组件的影响，需要考虑使用以下技术和原则：减少被依赖项本身的外部依赖。优化性能，减少消息响应时延和负载。使用优先队列，优

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES08 依赖减少与降级
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层调整批量业务，避免业务高峰期进行备份等业务；应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。应用层进行过载保护，保障优先业务的运行。 OBS对象上传/下载失败检测：对象上传/下载失败。恢复：应用层进行重试，以应对暂时性故障，如网络拥塞；应用故障重试处理可参考“故障重试”。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > OBS对象存储服务

总条数： 139

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES06-02 面向所有故障进行检测 - 云架构中心

基础概念 - 云架构中心

Spark性能优化 - 云架构中心

RES14-04 提供runbook进行标准化变更 - 云架构中心

RES08-01 减少强依赖项 - 云架构中心

RES03-04 支持容灾管理 - 云架构中心

常见故障模式 - 云架构中心

选择合适的计算资源 - 云架构中心

应用运维管理(AOM2.0) - 云架构中心

RES04-03 容灾恢复过程自动化 - 云架构中心

PERF05 性能优化 - 云架构中心

人工智能性能优化 - 云架构中心

OPS03-04 对生产环境进行拨测 - 云架构中心

OPS04-04 自动化工程运维任务 - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

RES12-04 出现问题后尽快恢复业务 - 云架构中心

SEC01-06 识别并验证安全措施 - 云架构中心

SEC01-05 实施威胁建模分析 - 云架构中心

RES08-03 减少被依赖项故障的影响 - 云架构中心

常见故障模式 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线