搜索_华为云

可用度及SLO - 云架构中心
可用度及SLO - 云架构中心

当云服务SLA无法满足要求时，需要应用层进行额外的保护和增强。通过冗余提升可用度：包括组件冗余（负载均衡集群），故障回退冗余（fail-back，例如使用DMS访问失败时暂时切换到SMN）。父主题：可用性目标定义

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

恢复：根据业务情况，手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高检测：通过AOM监控CCE节点的CPU/内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率。恢复：根据业务情况，手工变更节点规格或增加节点数量。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎
OPS05-01 进行生产准备度评审（Product Readiness Review） - 云架构中心

关键策略 Production Readiness Review 生产准备度评估基线：从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度，对服务可用性及运维能力提出基线要求。在服务产品开发前端构筑能力，进行相关需求规划、设计和开发工作，并在服务上线前进行生产准入审视。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS05 运维准备和变更管理
OPS04-02 采用持续部署模型 - 云架构中心

由到绿色实例。与金丝雀部署一样，当您引流更多流量转移到绿色实例时，引流是渐进的。完成转出后，更新实例将变为蓝色实例，绿色实例已准备好进行下一次部署。这两个实例在逻辑上彼此分离，以防止发生故障。风险等级高关键策略选择这两种模型时，部署的每个阶段之间的时间应该足够长，以便能够

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS04 自动化构建和部署流程
RES03-04 支持容灾管理 - 云架构中心

下的业务切换。风险等级高关键策略实时监控容灾状态，了解容灾运行状态。支持应用级数据校验，比较AZ间数据同步差异，监控及PO指标。典型确定性故障场景下自动容灾或切换，无需人工接入，业务不受影响，满足RPO/RTO指标。典型亚健康故障场景，支持业务降级或主动切换，业务不持续受损。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
SEC02-02 安全的登录机制 - 云架构中心

禁止将用户的密码共享给其他人，而是为每个管理或使用华为云资源的人创建一个单独的用户。修改新用户的默认密码。使用IAM创建新用户时，可通过邮件发送一次性登陆链接给新用户，新用户使用链接进行登陆时需要设置密码，另外在管理员自定义新用户的密码时可选择强制用户在激活后修改默认密码。集中的身份管控：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC02 身份认证
RES04-03 容灾恢复过程自动化 - 云架构中心

容灾恢复过程自动化由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等，恢复过程比较复杂，因此需要提供容灾管理功能，实现容灾状态及RPO监控，以及灾难场景下的一键式自动切换，减少人工干预。风险等级高关键策略实时监控容灾状态，了解容灾运行状态。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES04 跨Region/跨云容灾
OPS01-03 规划标准化的运维流程和运维工具 - 云架构中心

通过标准化的、统一的运维工具，向运维人员提供集中、统一维护界面及清晰易上手的操作手册，方便运维人员的集中维护，提高运维效率。常见的运维流程有：变更管理流程：适用于生产环境软、硬件的变更活动管理，减少变更导致服务意外中断或服务质量下降，确保企业的环境安全、稳定地运行，并最大化的提升系统的可用性，满足所承诺的服务水平。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS01 建立持续改进的团队文化和标准化的运维体系
OPS02-02 关联源代码版本和部署的应用版本，使用代码质量最佳实践 - 云架构中心

华为云CodeArts Artifact服务华为云CodeArts Repo服务父主题： OPS02 通过CI/CD实现高效的频繁可逆的小规模变更

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS02 通过CI/CD实现高效的频繁可逆的小规模变更
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

可靠性功能集群HA DCS服务提供主备、Proxy集群、Cluster集群实例，通过节点冗余方式实现实例容灾，当检测到主节点故障后，快速切换到备节点并自动恢复，在异常检测和恢复期间，可能会影响业务，时间在半分钟内。数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
SEC03-04 安全共享资源 - 云架构中心

组织 Organizations 资源访问管理 RAM：使用RAM为用户提供安全的跨账号共享资源的能力。如果您有多个华为云账号，您可以创建一次资源，并使用RAM服务将该资源共享给其他账号使用，这样您就不需要在每个账号中创建重复的资源。父主题： SEC03 权限管理

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC03 权限管理
COST01-03 明确团队责任，建立和维护成本意识文化 - 云架构中心

值得注意的是，成本优化不是一锤子买卖，团队对责任的接受，实施包括指标自身的完善都需要一个过程。 KPI指标应该随着阶段的演变而演变，以建立不断成功，不断进步的心态，而不是一次性推动成熟。在实施过程中，更多应该将错误视为学习和改进流程的机会，这将减少不成熟的团队和管理团队对成本优化的恐惧心理。指标自身也需要不断优

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST01 规划成本优化相应的组织机构和流程
内部工具或公测类应用典型部署架构（99%） - 云架构中心

故障中断：假定每年故障中断4次，每次应急恢复决策时长为1小时，应用负载重新部署、配置与数据恢复时长为2小时，则每年故障中断时长为12小时。变更中断：假定应用离线更新，每年更新6次，每次更新时长4小时，则每年更新时长为24小时。按照以上评估，每年应用系统不可用的时长是36小时，满足可用设计目标要求。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 参考架构
RabbitMQ性能优化 - 云架构中心
RabbitMQ性能优化 - 云架构中心

使用惰性队列能够更好的把控性能，并且使得集群更加的稳定。和非惰性队列不同，消息不会积累在内存中然后等到内存不足再一次性刷到磁盘，造成队列性能不稳定。如果你需要一次发送大量消息，或者消费速度长时间赶不上生产速度，那么我们推荐使用惰性队列。请注意，以下情况不建议使用惰性队列： a

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 消息队列性能优化
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

ECS的CPU /内存/磁盘容量/磁盘IOPS使用率过高检测：通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率。恢复：根据业务情况，手工变更规格以扩展资源或增加ECS实例进行负荷分担。对于无状态业务，启动AS弹性伸缩，自动扩展资源。应用层进行过载保护，保障优先业务的运行。连接后端ECS失败

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
设计原则 - 云架构中心
设计原则 - 云架构中心

性能消耗。优先级保障：系统过载时保证高优先级的业务能够优先获得资源，优先得到处理，从而保证社会效益最大化。变更防差错当对系统进行升级部署、配置变更时，需要防止变更过程中由于人因差错导致系统和业务受损或失效。通常采用防呆的方式来减少人因差错。防呆是一种预防矫正的行为约束手段

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
RES04-01 定义应用系统的容灾目标RPO与RTO - 云架构中心

RPO：允许的数据丢失量，与数据的周期性复制周期或连续性复制延时相关。 RTO：允许的业务恢复时长，即业务中断时长，与灾备端业务的部署与切换方式相关。风险等级高关键策略不同的业务系统重要性不一样，针对应用系统内的各种业务，需要明确其重要性及对应的RPO/RTO指标要求。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES04 跨Region/跨云容灾
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

恢复：根据业务情况，手工变更规格以扩展资源。开启存储空间自动扩容，以便在磁盘容量不足时自动扩容。应用层进行过载保护，保障优先业务的运行。连接后端RDS失败检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如RDS实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高检测：通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率恢复：根据业务情况，更换规格更高的BMS实例或增加BMS实例进行负荷分担。应用层进行过载保护，保障优先业务的运行。连接后端BMS失败检测：网络连接失败。恢复：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > BMS裸金属服务
SEC09-03 实施安全审计 - 云架构中心

风险等级高关键策略云服务的关键操作包含高危操作（如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等）、成本敏感操作（创建、删除高价资源等）、业务敏感操作（网络配置变更等）。启用关键操作通知功能。启用云审计服务CTS的关键操作通知功能后，CTS会对这些关键操作通过消

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC09 安全感知及分析

总条数： 135

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

可用度及SLO - 云架构中心

常见故障模式 - 云架构中心

OPS05-01 进行生产准备度评审（Product Readiness Review） - 云架构中心

OPS04-02 采用持续部署模型 - 云架构中心

RES03-04 支持容灾管理 - 云架构中心

SEC02-02 安全的登录机制 - 云架构中心

RES04-03 容灾恢复过程自动化 - 云架构中心

OPS01-03 规划标准化的运维流程和运维工具 - 云架构中心

OPS02-02 关联源代码版本和部署的应用版本，使用代码质量最佳实践 - 云架构中心

可靠性功能 - 云架构中心

SEC03-04 安全共享资源 - 云架构中心

COST01-03 明确团队责任，建立和维护成本意识文化 - 云架构中心

内部工具或公测类应用典型部署架构（99%） - 云架构中心

RabbitMQ性能优化 - 云架构中心

常见故障模式 - 云架构中心

设计原则 - 云架构中心

RES04-01 定义应用系统的容灾目标RPO与RTO - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

SEC09-03 实施安全审计 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线