检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
演练任务功能允许用户通过模拟软件或硬件故障来测试系统的恢复能力。演练任务操作包括管理混沌演练任务和查看演练记录,以及创建演练任务的流程。演练任务的设置包括基础信息、攻击任务组的添加、攻击任务的选择、攻击场景的选择等。此外,演练任务还涉及监控任务配置,以及演练后的复盘改进,确保系统在各种压力下的表现行为能够确定优化策略。
流转规则自动生成事件,需要做以下步骤: 登录COC。 同步人员,具体参考人员管理。 设置排班,并给排班中添加排班人员,具体参考排班管理。 集成监控系统,自动上报告警信息,具体参考集成管理。 配置流转规则,根据流转规则生成事件,具体参考配置流转规则。 若事件生成后,想要接收到事件的通知信
单击“确定”。 完成变更场景修改。 删除变更场景 系统预设变更场景不可删除。 登录云运维中心。 在左侧导航栏选择“基础配置 > 流程管理”。 单击“变更场景”。 选择需要删除的变更场景,单击操作列“删除”。 单击“确定”。 完成变更场景删除。 父主题: 流程管理
处理告警 操作场景 当汇聚告警生成后,用户可以通过云运维中心快速处理,执行响应方案,支持作业、脚本两种方式。 注意事项 只有责任人可以处理当前告警。 处理告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 当前告警”。 选择需要处理的告警,单击操作列“更多
概述 流程管理支持自定义事件、问题的级别和描述,同时支持配置事件或问题升降级,暂停的审批配置。按照事件和问题管理流程制定级别的类别的枚举值,便于满足当前业务。 父主题: 流程管理
处理待办 操作场景 待办任务创建成功后,责任人可以在待办中心受理和闭环待办任务。 注意事项 用户只能处理责任人或创建人为自己的待办。 受理待办 登录云运维中心。 在左侧导航栏选择“任务管理 > 待办中心”。 单击左上方“待处理的”。 选择待受理的待办,单击待办名称。 单击右上方“受理”。
问题处理记录 操作场景 问题回溯过程对处理问题或者填写问题单相关信息有疑问,可以查询处理记录。 处理记录 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“全部问题”页签,选择需要查看的问题单,单击问题单标题。 单击“处理记录”。 查看问题处理历史记录。 父主题:
有“异常”的任务。 成功:工单执行成功。 事件处理详情 登录云运维中心。 在左侧导航栏选择“故障管理 >事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“事件处理”,设置“事件处理”。 表3 事件处理参数说明 参数 说明 事件类别 在下拉列表选择事件的类别。
升降级 操作场景 创建人提交问题后,若问题处理人认为当前问题级别不合理,可对问题单进行升降级操作,问题单升降级流程可在流程管理中配置。 升降级 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“升降级”。
手动关联资源 操作场景 为分组创建对应环境后,即可为环境关联相关资源实例,后续可通过应用监控功能实时监控资源的使用情况。 手动关联资源 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,选择需要关联资源的应用,单击“关联资源”。
集成管理 支持用户自主接入告警数据 功能介绍 支持租户将自开发的监控系统按照标准化集成至COC,集成后告警会按照标准格式上报至COC告警中心 URI POST /v1/event/huawei/custom/{integration_key} 表1 路径参数 参数 是否必选 参数类型
操作场景 如果事件单在处理过程发现事件等级与实际情况不符,需修改级别,可以通过事件升降级操作进行。注意:事件只有在受理后才能修改级别。事件级别降级可以增加审批流程,详细操作请参考事件审批,设置后满足条件的事件降级申请需要审批人审核通过或驳回后才可以完成事件降级流程。 升降级 登录云运维中心。
云运维中心的韧性中心提供了应急预案功能,允许用户为系统可能发生的故障建立对应的应急预案。这样,在故障发生后,用户可以参考这些预案进行紧急恢复。创建应急预案的流程包括登录 云运维中心,选择“韧性中心>应急预案”页面,并进行应急预案的自定义创建,包括填写基本信息、选择处理方式(如“脚本”或“作业”),并
息;问题实施阶段变更需要审批等场景。支持问题处理人挂起问题单,问题单挂起后默认需创建人审批,若需修改先审批流程,可参考流程管理。 挂起问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“挂起”。
验证事件处理结果 功能介绍 验证事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号
派操作,支持多监控源纵向抑制、横向收敛,进行多维降噪;支持每个流转规则配置事件时默认分配对象和通知策略,而实现更准确的通知。 Global 集成管理 集成配置支持简单、快速集成现有或第三方等监控系统;将业务下所有分散的监控系统告警进行统一收口及管理。不同的监控系统通过各自独立的集成接入密钥实现对接集成。
限制长度最长1000个字符。 影响应用 请填写应用的影响描述。 支持添加和删除影响应用。 设置“处理过程”。 表2 处理过程参数说明 参数 说明 处理过程 请填写处理过程的时间和过程描述。 支持添加和删除处理过程。 设置“根因分析”。 表3 根因分析参数说明 参数 说明 根因分析 请填写故障的根因分析。
原始告警 操作场景 原始告警是由多个现有或第三方等监控系统(比如CES、AOM、Prometheus),将业务下分散的告警信息进行统一收集生成的告警。原始告警列表展示告警源名称、告警状态、告警级别、告警来源、关联应用等信息。 通过流转规则可以将一条或多条原始告警汇聚成单条汇聚告警,一条原始告警可以触发多个流转规则。
单击资源名称左侧箭头可展开全部告警信息(来源于CES),单击告警规则名称将会跳转至CES对应的告警规则页面,单击“告警自动处理”将会打开COC执行响应预案页面,可快速处理告警。 图6 查看告警 单击右上角“刷新”按钮,可实时同步资源与告警信息。 父主题: 总览
代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升