故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。
一方面,通过评估出的SLO值,用户能够快速识别架构短板,动态调整资源实例的数量与布局,另一方面,用户无需关注SLO值的计算细节,不必担心可能因数据偏差和计算公式繁琐导致的SLO值计算错误。
在评估报告中会给出识别到的风险和优化建议。 使用应用韧性评估时需注意以下事项: 当前应用韧性评估,允许评估一个应用下最多100个资源实例。若资源数量超出限制,则会评估失败,并给出相应报错。
故障处理过程中如果识别到一些产品、运维或管理改进事项,可以创建改进单,并通过改进管理处理。 前提条件 需要有正在处理的事件单,在事件处理页面启动WarRoom。 父主题: WarRoom
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的
评估报告详情中,给出了识别到的风险项,并给出优化建议。 若您认为部分风险项可以不进行优化,则可在查看评估报告详情中,单击“忽略风险”按钮,将其忽略。 父主题: 应用韧性评估
TOP5故障通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。
云运维中心通过以下机制实现资源的统一管理: 资源发现与识别:云运维中心能够自动发现和识别华为云、友商云和IDC离线资源,并将其纳入统一管理范围。 资源监控与管理:通过统一的监控界面,运维人员可以实时监控资源的使用情况,并进行动态调整。
列出组织的可信服务列表 organizations:trustedServices:list 跨账号场景下,查询当前组织已开通的可信服务列表 列出组织的根 organizations:roots:list 跨账号场景下,查询当前组织的root 修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况
列出组织的可信服务列表 organizations:trustedServices:list 跨账号场景下,查询当前组织已开通的可信服务列表 列出组织的根 organizations:roots:list 跨账号场景下,查询当前组织的root 修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况
风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。
核心优势 动态识别:OS合规性风险动态识别。 资源自动发现和纳管。 安全生产:执行运维操作时,自动分批、爆炸半径评估等。 自动预警:短信、邮件、企业微信等自动通知。 前提条件 执行自动化运维的主机需安装UniAgent。
您即将访问非华为云网站,请注意账号财产安全