检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行分
提供用户从脚本、作业等已有能力选择任务并且创建定时任务的能力。支持单次执行和周期执行两种执行方案,周期性包括Cron表达式和简单周期执行。 Global 参数中心 支持Region级参数全生命周期管理,持续看护参数正确性和一致性。支持作业编排等运维场景快速引用。 Global 事件中心
操作场景 当事件创建后,您可以通过应用诊断(全链路诊断)功能快速定位故障根因。用户通过应用诊断可以查看应用层、组件层、资源层的关系拓扑,基于资源和应用告警的异常数据,并提供资源核心指标查看与实例诊断能力。 前提条件 已完成在CMDB的应用创建和资源关联,并完成应用拓扑。 确保已接入CES监控,请到集成管理进行配置。
CSS集群重启 重启状态可用的CSS集群。重启期间,kibana和cerebro可能会访问失败。不支持故障紧急终止 文档数据库服务 (DDS) 实例类 备节点强制升主 支持副本集、shard和config备节点强制升主。但在主备时延较大的情况下存在失败风险,不支持故障紧急终止 IDC离线资源
某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的“排雷”和“验收”,以确保在正式引流时无重大稳定性风险。