检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
事件管理 事件管理主要是对应用的所有事件进行管理,包含事件的受理、驳回、转单、处理到闭环整个生命周期管理。事件来源包含流转规则产生的事件、通过告警创建的事件及人工创建的事件。 事件管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。 事件流程 创建事件 处理事件 事件历史记录
在故障管理>事件管理创建事件单,具体操作详见告警转事件。 流转规则自动生成事件 流转规则自动生成事件,需要做以下步骤: 登录COC。 同步人员,具体参考人员管理。 设置排班,并给排班中添加排班人员,具体参考排班管理。 集成监控系统,自动上报告警信息,具体参考集成管理。 配置流转规则,根据流转规则生成事件,具体参考配置流转规则。
中断记录 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据。搜索框后的图标依次支持:刷新列表数据、设置列表展示字段。 单击“添加中断记录”,右边弹出添加中断记录弹框,选择对应的数值,添加中断记录。 图2 添加中断记录 单击右侧“修正”,右边
登录COC。 在左侧菜单栏单击“故障管理 > 告警管理”,可以查看汇聚告警或原始告警列表信息。 在汇聚告警搜索框中输入告警单号、集成告警名称,“回车”进行搜索。 汇聚告警包含当前告警和历史告警。 图1 告警列表 父主题: 告警管理
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
资源。 收藏企业项目 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”,进入“资源管理”页面。 点击右上方“收藏配置”。 设置“收藏配置”。 企业项目:勾选需要收藏的企业项目。 单击“确认”。 单击“确定”,完成企业项目收藏。 查看已收藏企业项目的资源 登录云运维中心。
登录COC。 在左侧导航栏选择“任务管理 > 执行记录”页面,选择“补丁工单”页签。 用户可以通过ID、区域、工单类型、开始时间、结束时间进行搜索。 图1 补丁工单列表 工单类型:扫描、修复 单击 ID 可查询到对应工单详情。 当工单的状态为“暂停”状态时,单击“继续”,可以让工单继续。
查看SLA列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据。搜索框后的图标依次支持:刷新列表数据、设置列表展示字段。 图2 检索公共SLA模板 单击列表中的“SLA名称”,跳转到“SLA详情”页面。 图3 查看公共SLA详情 所有用户可查看系统预置的公共SLA。
在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,选择需要关联资源的应用,单击“关联资源”。 图1 手动关联资源 设置“关联资源”。 表1 关联资源参数说明 参数 说明 示例 选择应用下的分组 从下拉列表中选择应用、组件和分组。 测试应用/测试组件/测试分组
操作步骤 登录COC。 在左侧导航栏选择“任务管理 > 执行记录”页面,选择“资源操作工单”页签。 用户可以通过ID、工单类型、开始时间、状态进行搜索。 图1 资源操作工单列表 状态:已暂停、创建中、执行中、已取消、成功、异常 单击“ID”列对应的“资源操作工单ID”,可查询到对应工单详情。
演练规划指定的执行人在演练规划列表操作项里单击“接单”,进入创建演练任务页面,演练任务关联选择的故障模式和区域。并且可以对后续的演练任务进度进行跟踪。 图3 通过演练规划接单进入创建演练任务页面 父主题: 混沌演练
问题级别:必填,选择问题级别,当前包含致命,严重,一般和提示 问题类型:必填,选择问题的类型 责任人:必填,选择责任人后该问题会流转至对应的责任人名下。当前支持排班和个人,若需设置排班,参考排班管理 问题管理若需要收到通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理。 父主题: 问题管理
回填结果,才能流转至下个步骤。 无需变更的问题或需要变更的问题已有变更结果,问题状态为“待验证”,创建人确认问题是否解决或未解决,未解决可进行驳回。 图1 问题管理操作流程 父主题: 问题管理
以快捷执行作业及快捷混沌演练为例,帮助您快速了解COC在典型场景下的操作方法。 快速入门 快捷执行作业 快捷混沌演练 04 API 您可以使用本文档提供的API对COC进行相关操作,例如脚本工单的查询、自定义脚本的增/删/改/查/执行等。 API文档 API概览 如何调用API 脚本管理API 应用资源管理API
一个*代表所有regionID,第二个*所有租户,name代表参数名称) 资源类权限决定您可以访问哪些数据,操作类权限是对您有的资源类权限进行操作,常见问题: 如果您可以访问某个参数,但是您访问不了列表页,代表您缺少coc:parameter:list权限 如果您找不到指定的参数,需要确认是否有该参数的权限
已拒绝:在补丁基线的补丁例外中被拒绝的补丁,该状态的补丁就算满足基线也不会被修复。 待修复:补丁符合基线,但补丁版本低于基线版本。 修复失败:补丁进行了修复操作,但是修复失败。 父主题: 补丁管理
、批准、排序、计划、测试、实施和回顾的变更); 紧急变更(为了处理生产环境不可用、紧急满足业务需求而提出的计划外变更,或者来不及走正常流程进行评估审批的变更)。 2、变更级别:A级>B级>C级>D级。 3、变更场景:支持用户根据业务情况自定义配置。 4、变更应用:先选择顶层应用,再选择下层具体的应用范围。
应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。 图5 故障管理 表3 事件管理数据字典 模块 指标名称 数据来源 指标定义
数组长度:0 - 1000 total Long 总数 最小值:0 最大值:9223372036854775807 running_num Long 进行中warroom总数 最小值:0 最大值:9223372036854775807 closed_num Long 已关闭warroom总数
概述 作业是操作步骤(原子动作)的集合,一个作业可以包含一个或多个操作,例如重启ECS、执行脚本等。 作业管理提供对公共作业、自定义作业的创建、修改、克隆、删除等管理的能力以及在目标实例上执行作业的能力。通过作业管理,用户可以在目标实例执行定义好的特定操作步骤。作业管理支持最多100个版本。