搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高检测：通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。开启存储空间自动扩容，以便在磁盘容量不足时自动扩容。应用层进行过载保护，保障优先业务的运行。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
内部工具或公测类应用典型部署架构（99%） - 云架构中心

内部工具或公测类应用典型部署架构（99%）内部工具类应用通常用于内部操作，且在故障时只会对内部员工造成影响，不可用时只会带来不方便，可以承受长时间的恢复时间和恢复点；公测类应用用于面向客户的实验性的工作负载，在必要时可以隐藏其功能；针对这些应用，其可用性目标通常要求不高，可达到99%，即每年中断时间可以为3

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 参考架构
选择合适的计算资源 - 云架构中心

的性能。选择最佳计算服务以确保工作负载高效运行。请考虑以下策略：了解实例类型不同的实例类型针对不同的工作负载进行优化，例如CPU优化、内存优化和GPU优化，选择符合需求的实例类型。考虑自动缩放如果工作负载的需求不定，请考虑具有自动缩放功能的计算服务，该功能可根据需求自动调

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模
RES15-04 灰度部署和升级 - 云架构中心

RES15-04 灰度部署和升级原地升级和回滚时，升级和回滚过程中业务将会中断，中断时长受限于升级和回滚的时长，对业务影响比较大；而采用灰度部署和升级，可减少升级和回滚过程中的业务中断，提升系统可用性。风险等级高关键策略通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署，逐步引入新

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
PERF03-09 选择合适的RabbitMQ - 云架构中心

版本选择：RabbitMQ服务版本随时间更迭，选择版本时需注意查看不同版本状态与区分，详情可参考官方公告。规格选择：RabbitMQ服务提供了不同规格实例可供选择，建议按照业务需求对比，选择合适的规格型号，具体实例规格请参考官方文档。父主题：选择合适的应用中间件云服务资源

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模 > 选择合适的应用中间件云服务资源
PERF06-03 自动告警 - 云架构中心

PERF06-03 自动告警风险等级中关键策略通过在云监控平台配置对应的告警策略，可以及时了解资源风险，以便做出对应调整和策略。相关云服务和工具：优化顾问 OA 云监控服务 CES 父主题：性能看护

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF06 性能看护 > 性能看护
PERF04-04 资源性能数据收集 - 云架构中心

帮助你了解资源的运行状况和性能，在云监控平台上配置对应的告警策略和配置指标看板。通过跟踪分析网络路径上的流量来优化网络性能。相关云服务和工具云监控服务 CES 父主题：性能数据采集

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF04 性能分析 > 性能数据采集
RES06-03 支持亚健康检测 - 云架构中心

关键策略亚健康检测通常用于根据亚健康症状来预测系统故障，典型的例子是内存泄漏，内存泄漏往往不会立刻导致系统失效，系统首先会因为Swap Memory不足变得运行缓慢，消耗内存量持续增加，因此通过监控实例内的内存占用率，在超过阈值的情况下及时告警，人工介入迅速恢复，可避免造成业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
PERF06-02 性能劣化自动定界定位 - 云架构中心

把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力，需要依赖持续的资源治理和数据治理。相关云服务和工具：优化顾问 OA 云监控服务 CES 应用运维管理 AOM 父主题：性能看护

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF06 性能看护 > 性能看护
RES15-02 自动化检查 - 云架构中心

自动化检查在部署或升级过程中集成基本测试功能，实现自动化检查，无需人工参与。风险等级高关键策略在部署或升级过程中集成基本测试功能，在部署或升级完成后自动进行检查和测试，以验证新部署的代码功能是否正确。在部署或升级过程中集成故障注入测试功能，在部署或升级完成后自动注入故障进行测试，以验证新部署代码的韧性。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
RES11-01 混沌测试 - 云架构中心
RES11-01 混沌测试 - 云架构中心

工程演练，平均恢复速度提升的比率。故障数量相比上年减少数量：本年度故障数量相比上年度减少多少。相关云服务和工具 MAS-CAST故障注入服务：针对云应用提供测试工具和注入手段，支持故障和业务流程编排的可靠性评估测试、压力负荷测试、CHAOS随机故障注入、生产环境故障演练等能力。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES11 可靠性测试
OPS07-01 创建可操作的告警 - 云架构中心

遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率，识别高频告警，解决告警问题，清除明确的告警误报。设计建议优化告警阈值：适当提高内存／CPU／网络 IO 告警阈值。优化日志级别：优化不合理的日志级别，把部分 ERROR 级别的日志调整为 WARNING。屏蔽某些日志

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS07 进行故障分析和管理
PERF01-02 应用性能编程规范 - 云架构中心

高性能编码规范构建策略： JAVA语言：结合语言基础能力的使用、并发模型、部署调优、工具链辅助等维度展开。 C/C++语言：结合语言基础能力、编译技术、并发技术、高效数据结构与算法、高性能库及工具链辅助展开。父主题：应用性能编程规范

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF01 流程与规范 > 应用性能编程规范
PERF05 性能优化 - 云架构中心
PERF05 性能优化 - 云架构中心

指导策略还是首先让系统运行起来，再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候，才应进行优化。除非用专门的工具分析瓶颈，否则很有可能是在浪费自己的时间。另外，性能优化的隐含代价会使我们的代码变得难于理解和维护，这一点也是需要权衡和关注的。设计优化

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱
PERF06-01 分层看护 - 云架构中心

般、紧急、重要三个梯度，对应每个梯度的指标配套对应的处理措施。对于敏感度或业务重要度的应用架构，可以新增一个提示级别的梯度。相关云服务和工具：云监控服务 CES 应用运维管理 AOM 应用性能管理APM 父主题：性能看护

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF06 性能看护 > 性能看护
RES06-02 面向所有故障进行检测 - 云架构中心

针对具体故障进行检测时，根据检测的类型通常可以分为资源检测、功能检测和业务检测。资源检测：云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源，具体包含CPU、内存、网络和磁盘资源等。功能检测：对组成产品系统的各个内部模块对象进行检测的过程，确定模块功能是否满足设计的需求。当产品系统的功能发生故障时

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
PERF01-01 全生命周期性能管理 - 云架构中心

在业务系统开发维护阶段，采取措施（例如在关键点插入代码，探测器）使测试和分析负载场景、资源需求、性能目标达成一致。使用监控工具来分析历史趋势，并识别支配性占比的数据流和代码实现路径。本原则强调采取措施使性能指标可测试，可以利用商用工具测试质量指标，也可以在设计时考虑相关性能指标的可测试性措施。需要测试的数据包括响应时

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF01 流程与规范 > 全生命周期性能管理
性能规划 - 云架构中心
性能规划 - 云架构中心

性能规划 PERF02-01 定义性能目标 PERF02-02 容量规划父主题： PERF02 性能规划

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF02 性能规划
OPS04-03 基础设施即代码 - 云架构中心

手动管理基础设施既耗时又容易出错，尤其是在大规模管理应用程序时。风险等级高关键策略使用声明式工具：与命令式工具相比，声明式工具是部署和管理 IaC 的更好的整体选择。声明性工具对其定义文件使用更简单的语法，仅定义部署完成后所需的环境状态。命令式工具需定义达到所需最终状态所需的步骤，因此文件可能比声明性文件复杂

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS04 自动化构建和部署流程
OPS03-05 进行混沌测试和演练 - 云架构中心

故障恢复时长提升率：对应故障场景经过混沌工程演练，平均恢复速度提升的比率。故障数量相比上年减少数量：本年度故障数量相比上年度减少多少。相关云服务和工具 MAS 混沌工程 COC 故障演练父主题： OPS03 完备的测试验证体系

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS03 完备的测试验证体系

总条数： 262

上一页
1
2
3
4
5
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

内部工具或公测类应用典型部署架构（99%） - 云架构中心

选择合适的计算资源 - 云架构中心

RES15-04 灰度部署和升级 - 云架构中心

PERF03-09 选择合适的RabbitMQ - 云架构中心

PERF06-03 自动告警 - 云架构中心

PERF04-04 资源性能数据收集 - 云架构中心

RES06-03 支持亚健康检测 - 云架构中心

PERF06-02 性能劣化自动定界定位 - 云架构中心

RES15-02 自动化检查 - 云架构中心

RES11-01 混沌测试 - 云架构中心

OPS07-01 创建可操作的告警 - 云架构中心

PERF01-02 应用性能编程规范 - 云架构中心

PERF05 性能优化 - 云架构中心

PERF06-01 分层看护 - 云架构中心

RES06-02 面向所有故障进行检测 - 云架构中心

PERF01-01 全生命周期性能管理 - 云架构中心

性能规划 - 云架构中心

OPS04-03 基础设施即代码 - 云架构中心

OPS03-05 进行混沌测试和演练 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线