检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
生成SLO中断记录需要先设置对应的SLA规则、SLO规则,并且该告警存在对应的SLA记录。 输入备注,单击“确定”,清除告警。 备注可以包含中文字符、英文字母、数字及特殊字符组成,长度不超过100个字符。 父主题: 汇聚告警
图1 创建应用 进入创建应用页面,填写信息,具体信息可参考 表1 ,单击“创建”。 图2 填写信息 请将每个层级的必填字段填写完毕并点击保存按钮后,再点击创建按钮创建应用 表1 创建应用参数说明表 参数 说明 示例 应用名称 基本信息,自定义应用名称,必填项 测试应用 描述 基本信息,该应用相关描述,非必填项
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
案进行应对。 COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。 镜像与武器版本支持声明 COC
列出组织的根 organizations:roots:list 跨账号场景下,查询当前组织的root 修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况,可以前往统一身份认证服务中修改委托策略。 如果需要修改委托的权限、持续时间、描述等,可以在委托列表中,单击委托右侧的“修改”,修改委托。
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能
某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的“
快速配置中心 如果“总览”页面,没有显示快速配置中心部分(图1显示的部分),点击顶部“快速配置中心”展开快速配置中心部分 图2 快速配置中心入口 点击卡片,进入对应场景的配置页面。 进入快速配置中心页面,点击不同类型配置任务的“前往配置”按钮进行配置。 图3 选择场景前往配置 父主题:
参数说明 参数名称 参数说明 待办名称 必选参数。 只能由中文字符、英文字母、数字及“_”、“-”、“.”组成,长度不超过255字符。 以中文字符、英文字母、数字开头 不能以“.”结尾 待办描述 必选参数。 可输入中文字符、英文字母、数字及特殊字符,长度不超过1000字符 类型 必选参数。
操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“验证”,跳转验证详情,填写信息后点击提交。 图1 问题单验证页面 验证通过后问题单闭环;验证未通过问题状态会走到定位出方案中。 父主题:
择“应用管理”页签,选择应用,单击。 图1 应用拓扑 单击“自定义编辑”,进入拓扑编辑状态。 选中组件,编辑组件调用连线,点击确定。 图2 编辑组件连线 点击“确定”,退出编辑状态。 图3 退出编辑状态 父主题: 应用管理
件标题进入“事件详情”页面。 在页面的右侧点击选择创建改进单,进入创建改进单页面,填写改进信息后,单击“确认”。 图1 事件单创建改进单 图2 创建改进单 改进信息提交后可以下事件详情页面,改进记录中查看改进单状态及当前责任人,同时点击改进名称会跳转至改进管理页面处理改进单。 图3
在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“挂起”,页面会显示问题挂起弹窗页面,并填写挂起信息。 图1 问题单挂起 提交挂起后创建人点击问题单名称进入问题详情页面,单击页面右上角的“挂起审核”,填写审核信息并
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
应用拓扑大屏默认显示当前应用下的所有子应用。 图3 应用拓扑(应用层) 点击拓扑上的子应用,查看组件层,展示该子应用下的所有组件,并支持在拓扑顶部切换至查看其它子应用的组件。 图4 应用拓扑(组件层) 点击拓扑上的组件,查看资源层,展示该组件下的所有资源,并支持核心云服务的指标展示
登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“定位出方案”,跳转至填写问题原因及解决方案页面,填写信息后点击提交。 图1 填写问题解决方案 解决方案详情页面中若选择需要变更,区域是必填项,问题单走
登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面,单击页面上方“点击此处”配置自动化任务。 图1 点击此处 填入自动化执行参数,单击“确认配置”。 选择区域后,补丁自动化操作将定时执行该区域中所有Agent正常运行且操作系统
在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“现网实施”,跳转现网实施页面,系统会默认带出涉及的区域,填写区域对应的变更单后,系统会获取变更结果;若部分区域不涉及变更,可点击操作列的“不涉及变更”。 填写完变更信息后,单击右下角的“实施完成”,会走到待验证阶段。
编辑审批配置 登录COC。 在左侧菜单栏选择“变更管理 > 变更配置”页面,点击操作列的“编辑”,修改审批配置信息。 图3 修改审批配置 删除审批配置 登录COC。 在左侧菜单栏选择“变更管理 > 变更配置”页面,点击操作列的“删除”,删除审批配置信息。 图4 删除审批配置 父主题: 变更配置
位。 单击“提交”。 图2 停止展示操作页 查看执行结果。 图3 执行结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图4 取消或者重试 父主题: 批量RDS操作