检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当汇聚告警生成后,用户可以通过云运维中心将指定汇聚告警转为事件。转为事件后会生成相应的事件单,在关联事件单号列显示生成的实际单号。点击事件单号查看事件单详情,可以对事件单进行受理、驳回、转单、处理等操作。 注意事项 只有责任人可以将当前告警转为事件。 操作步骤 登录云运维中心。 在左侧导航栏选择“故障管理
的任务才可以创建新的任务。 创建评估任务 登录云运维中心。 在左侧导航栏选择“韧性中心 > 应用韧性评估”。 单击“创建应用韧性评估”。 在下拉列表选择需要评估的应用,单击“确定”。 完成应用韧性评估任务创建。 删除评估任务 登录云运维中心。 在左侧导航栏选择“韧性中心 > 应用韧性评估”。
操作场景 创建人提交问题后,若问题处理人认为当前问题级别不合理,可对问题单进行升降级操作,问题单升降级流程可在流程管理中配置。 升降级 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“升降级”。
转发问题 操作场景 问题单处理过程发现该问题属于其他运维专家处理,可转发问题单给对应的责任人。 转发问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“转发责任人”。 设置“转发责任人”。 表1
创建排班 使用场景 事件、变更等场景需获取排班中的人员作为责任人,可通过创建排班场景及角色进行人员管理。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 排班管理”页面,单击右上角的“创建排班”。 图1 排班管理页面 进入“创建排班”页面,可以填写排班场景信息,并添加排班
演练报告 操作场景 演练报告包含创建、编辑、改进事项以及故障记录的查看,以便用户全面地记录和管理演练活动及其结果。 创建演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 图1 演练任务列表
重新提交问题 操作场景 问题单被驳回后,问题提单人再次确认该问题需要提交,可以编辑问题单内容后重新提交。 重新提交 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“修改”。 设置“修改”。 表1
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。
除后,您可以在历史告警页签中继续查看汇聚告警的相关信息和处理记录。 注意事项 告警数据留存期为31天,逾期将自动清除。 查看历史告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 历史告警”。 查看集成告警列表信息。 选择需要查看的告警单击操作列
故障模式 操作场景 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备
故障模式是什么? 故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”。
事件单处理完成后,通过故障是否恢复或达到预计效果,在验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“验证关闭”。
身份认证与访问控制 身份认证 用户访问COC的方式包括:COC控制台、API、SDK,无论哪种访问方式,其本质都是通过COC提供的REST风格的API接口进行请求。 COC的接口支持认证请求,经过认证的请求需要包含一个签名值,该签名值以请求者的访问密钥(AK/SK)作为加密因子,
删除自定义脚本 功能介绍 删除作业脚本:自定义脚本。 URI DELETE /v1/job/scripts/{script_uuid} 表1 路径参数 参数 是否必选 参数类型 描述 script_uuid 是 String 脚本uuid 最小长度:1 最大长度:25 请求参数 无
查询脚本列表 功能介绍 作业脚本列表:自定义脚本 limit最大为100 URI GET /v1/job/scripts 表1 Query参数 参数 是否必选 参数类型 描述 limit 是 Integer 分页参数:每页返回记录个数限制 最小值:1 最大值:100 marker
展示批次列表 功能介绍 查询:批次列表 返回:批次index、批次标签 URI GET /v1/job/script/orders/{execute_uuid}/batches 表1 路径参数 参数 是否必选 参数类型 描述 execute_uuid 是 String 脚本工单的
事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。 启动WarRoom 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“启动WarRoom”。
批量停止 操作场景 云运维中心提供了统一操作RDS实例的功能。通过批量RDS停止实例功能,您可以对RDS实例执行单独或批量停止实例的操作。 注意事项 所选实例处于正常状态,才能执行此操作。 无其他正在执行的工单,比如所选实例已有重启工单,则无法执行。 批量停止 登录云运维中心。 在左侧导航栏选择“资源管理
SLO中断记录 操作场景 用户可以通过此页面查看、添加和修正SLO中断记录。 支持添加SLI指标、WarRoom、告警单、事件单和其他,共5类来源的SLO中断记录。其中告警单和事件单,若有SLA记录,且产生业务中断的,则会自动生成中断记录,规则示例可参考告警单SLO中断记录;其余3类目前仅支持手动添加。