检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自动在其他物理服务器上重启;对于部署在这种ECS中的工作负载,需要检查ECS重启后业务是否能自动恢复。 对于依赖特殊资源的ECS,如本地盘、直通FPGA卡、直通IB卡等,不支持故障自动恢复,针对此类ECS需要检查是否可以替换为不依赖于这些特殊资源的ECS,以提高ECS的可用性。
卓越运营支柱 卓越运营支柱简介 基础概念 设计原则 问题和检查项 OPS01 建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06
RES10-01 应用控制平面与数据平面隔离 RES10-02 应用系统多位置部署 RES10-03 采用Grid架构 RES10-04 健康检查与自动隔离 父主题: 故障快速恢复
定义应用系统的容灾目标RPO与RTO RES04-02 部署容灾系统以满足容灾目标 RES04-03 容灾恢复过程自动化 RES04-04 定期进行容灾演练,以检查恢复能否满足容灾目标 父主题: 高可用设计
其他依赖项启动或加载关键配置数据,可能会导致应用系统长时间停在启动状态而无法响应外部消息。针对这种情况,应用系统应该先使用缺省配置启动,再检查依赖项的状态或加载最新配置数据,以恢复正常运行。 父主题: RES08 依赖减少与降级
议设置自动备份策略进行备份。 此外,用户也可使用第三方备份软件进行备份。 华为云中云服务的数据备份到OBS存储中,可高度保障用户的备份数据安全。 相关云服务和工具 云备份 CBR 云数据库 RDS 分布式缓存服务 DCS 父主题: RES02 备份
回退以降低部署差错导致业务中断的风险。 金丝雀部署(灰度发布)是将少量客户引导到新版本的做法,通常在单个服务实例(Canary)上运行;当检查到任何行为更改或错误时,可以将Canary中的流量删除,并将用户发回到以前的版本。如果部署成功,则可以继续以期望的速度进行部署,同时监控更改以便发现错误,直到所有部署完成。
险。 配置校验:通过配置生效机制设计确保在配置生效前进行必要的检查,避免错误配置生效。通过使用自动化方式进行配置变更处理,可减少人因输入错误的可能。 删除保护:在删除资源时增加保护机制,防止误删,如:删除前运行状态检查保护,资源锁定防止误删除,回收站机制等。 父主题: 韧性支柱
数据恢复,可以满足可用性目标要求。 容灾 不支持容灾部署,在站点故障的情况下,重新进行应用部署与备份数据恢复。 监控告警 进行简单的监控,检查应用系统是否能正常返回消息。 弹性扩缩容 提供常见故障处理runbook,以便在容量不足等场景可以手工扩容。 变更防差错 软件更新采用离线
据恢复,可以满足可用性目标要求。 容灾 应用在两个AZ各部署一套,进行双向复制,双活容灾;AZ故障时自动恢复。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。
对于已部署的应用系统改造为跨AZ实例的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。 针对关键组件,检查其跨AZ高可用能力,即在一个AZ故障的情况下,是否能自动故障转移到另外一个AZ,进行业务恢复。 针对未支持跨AZ高可用的关键组件,可进行如下优化处理:
用于衡量标签的覆盖率。可分配成本比例越高,成本分配和报告效率越高,成本数据越可信任。在标签治理过程中,通过可分配成本比例趋势的上升和下降,检查组织内标签的标记覆盖率是在提升还是在下降 识别标签缺失和错误:在确定需要进行标签治理后,需要首先识别所有未打标签的资源和标签key&val
应用跨AZ部署,AZ故障时自动恢复;支持跨Region主备容灾,在出现Region级故障时可以快速在异地恢复业务。 监控告警 支持业务运行状况、成功指标的检查,在发生故障时告警;支持ECS、DCS、Kafka、RDS、DDS等实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容
求。 容灾 应用跨AZ部署,AZ故障时自动恢复;支持跨云双活,在IDC或其他云出现故障时可以快速切换到华为云。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。
对功能实现造成影响(一般告警或指示灯故障等)。 其中,I~II类故障通常称为重大故障,也即“单点故障”,它们的区别主要是I类故障可能涉及到安全性问题,或者I类故障是所有/大部分功能丧失。II类故障指主要功能受影响。III类故障可简单理解为需要尽快修复的故障。 通常来说,当一个故障
求。 容灾 应用跨AZ部署,AZ故障时自动恢复;支持跨云容灾,在IDC或其他云出现故障时可以快速切换到华为云。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。
应用使用支持跨AZ的服务进行跨AZ部署,ELB、RDS跨AZ部署,AZ故障时自动恢复。有状态ECS通过SDRS进行跨AZ容灾,在AZ故障时手工切换。 监控告警 进行站点运行状态检查,在发生故障时告警;针对ECS、RDS实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 针对内部用户场景,资源足够,无需自动弹性伸
故障时使用最新备份数据恢复,可以满足可用性目标要求。 容灾 应用跨3AZ部署,AZ故障时自动恢复。 监控告警 支持业务运行状况、成功指标的检查,在发生故障时告警;支持云服务实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 针对内部用户场景,资源足够
应用跨AZ部署,AZ故障时自动恢复;支持跨Region双活容灾,在出现Region级故障时可以自动切换在异地恢复业务。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。
在发布消息时复用通道也是一个好的习惯,不要每发送一条消息都开启一个新的通道。同时需要注意如下几点: 多线程不要共享通道,因为你很难实现线程安全。 不要频繁的开启或关闭连接和通道,否则会造成更高的延迟。 生产者和消费者使用独立的连接,来提高吞吐量。 大量的连接和通道可能会影响管理接口的性能,造成请求超时。