检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。
导入账号:账号管理支持主机账号密码的在线托管,您可以通过Excel导入的形式将主机账号的初始密码导入,导入之后您可点击“查看账号密码”来在线查看账号密码。 同步账号:若用户在OS上新增了主机账号,在账号管理页面勾选对应主机后,可通过“同步账号”按钮一键同步新增的OS账号。
评估报告详情中,给出了识别到的风险项,并给出优化建议。 2. 若您认为部分风险项可以不进行优化,则可在查看评估报告详情中,点击“忽略风险”按钮,将其忽略。 父主题: 应用韧性评估
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
列出组织的可信服务列表 organizations:trustedServices:list 跨账号场景下,查询当前组织已开通的可信服务列表 列出组织的根 organizations:roots:list 跨账号场景下,查询当前组织的root 修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况
COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。
核心优势 动态识别:OS合规性风险动态识别。 资源自动发现和纳管。 安全生产:执行运维操作时,自动分批、爆炸半径评估等。 自动预警:短信、邮件、企业微信等自动通知。 前提条件 执行自动化运维的主机需安装UniAgent。
提升应用高可用能力:PRR(Production Readiness Review 生产就绪程度评审),承载华为云SRE对云应用上线评审的最佳实践,提供在线评审电子流和评审项,提升应用高可用能力。
故障处理过程中如果识别到一些产品、运维或管理改进事项,可以创建改进单,并通过改进管理处理。 前提条件 需要有正在处理的事件单,在事件处理页面启动WarRoom。 父主题: WarRoom
在评估报告中会给出识别到的风险和优化建议。 1. 当前应用韧性评估,允许评估一个应用下最多100个资源实例。若资源数量超出限制,则会评估失败,并给出相应报错。 2.
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的
通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。