检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
改进管理 操作场景 事件、Warrroom、混沌演练、PRR评审创建改进单进行受理,并在期望时间内完成改进任务,处理改进单过程若发现责任人不是本人支持转发责任人,改进项完成后需验收人验收通过才能闭环。 前提条件 需要通过事件、Warrroom、混沌演练、PRR评审创建改进单。 处理改进单
创建问题 操作场景 在使用软件产品过程中,发现产品功能缺陷、性能差等问题,您可以通过创建问题单进行跟踪。 问题管理支持设置通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理,通知类型需要选择“问题通知”。 前提条件 需要先在应用管理中创建您的应用。 创建问题 登录云运维中心
演练报告 操作场景 演练报告包含创建、编辑、改进事项以及故障记录的查看,以便用户全面地记录和管理演练活动及其结果。 创建演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 图1 演练任务列表
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级
演练任务 操作场景 演练任务功能允许用户通过模拟软件或硬件故障来测试系统的恢复能力。演练任务操作包括管理混沌演练任务和查看演练记录,以及创建演练任务的流程。演练任务的设置包括基础信息、攻击任务组的添加、攻击任务的选择、攻击场景的选择等。此外,演练任务还涉及监控任务配置,以及演练后的复盘改进
集成管理 操作场景 每个监控源的集成配置都有独立的集成接入步骤,需要单独接入,各监控源的详细步骤可查看集成接入中各监控集成说明。 接入集成 该步骤介绍华为云监控系统、开源监控系统的接入步骤 登录云运维中心。 在左侧导航栏选择“故障管理 > 集成管理”。 在集成管理配置页面根据业务需要选择要接入的接入源
故障模式 操作场景 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。
运维态势感知 前提条件 如果您是在单账号场景下使用运维态势感知,您可跳过此部分内容,查看操作步骤。 如果您是在跨账号场景下使用运维态势感知,需要满足以下前提条件: 1、当前账号已经开启跨账号管理,并且是组织/委托管理员账号。 2、组织成员账号已开通云运维中心COC服务。 操作场景
验证问题 操作场景 问题单处理完成后,需要问题创建人验证问题是否已解决,若未解决可不通过,问题处理人重新定位处理,已解决可直接闭环。 验证问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“验证
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”
起会规则 操作场景 起会规则是在启动WarRoom时,根据区域、应用、事件级别匹配到对应的规则,将规则中相关的人员拉入群组,关注故障恢复的人员在第一时间可以接收到故障,并响应故障。 新增起会规则 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 单击“起会规则”
验证事件 操作场景 事件单处理完成后,通过故障是否恢复或达到预计效果,在验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,
受理问题 操作场景 问题单创建后,问题责任人分析问题实际情况,若属实则问题责任人受理问题并进行后续处理,完成问题的闭环。 受理问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“受理”。 完成问题单受理
批量重装操作系统 操作场景 云运维中心提供了统一操作BMS实例的功能。通过批量BMS重装操作系统功能,您可以对BMS实例执行单独或批量重装操作系统的操作。 注意事项 如果存在运行中的实例,需要勾选“立即关机”。 如果不存在运行中的实例,则可直接提交执行。 无其他正在执行的工单,比如所选实例已有重启工单
清除告警 操作场景 当汇聚告警生成后,会显示在当前告警页签。若告警已经处理完毕或由于其他原因需要清除,可以通过清除告警功能将汇聚告警从当前告警页签清除,清除后的汇聚告警可以在历史告警页签中查看。 注意事项 只有责任人可以将当前告警进行清除。 告警数据留存期为31天,逾期将自动清除,
原始告警 操作场景 原始告警是由多个现有或第三方等监控系统(比如CES、AOM、Prometheus),将业务下分散的告警信息进行统一收集生成的告警。原始告警列表展示告警源名称、告警状态、告警级别、告警来源、关联应用等信息。 通过流转规则可以将一条或多条原始告警汇聚成单条汇聚告警,
与会成员 操作场景 与会成员主要是为了快速恢复故障,将参与故障恢复的人员拉入群组,或通过电话或短信及时通知故障恢复人员响应并处理故障。将与会人员加入群组后,可以设置管理员、恢复责任人、恢复成员。 与会成员默认管理员为创建WarRoom设置的WarRoom管理员。 添加与会成员 登录云运维中心
驳回问题 操作场景 若创建人提交的问题属于非问题或其他原因可驳回问题单,驳回后创建人可重新编辑提交或撤销问题,重新提交后需问题处理人继续定位解决。 驳回问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。
变更场景 使用场景 变更管理中系统默认的变更场景字段和实际业务使用过程中有差异,支持修改变更场景枚举值。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 流程管理”页面,单击页面变更<br>场景,当前页面显示的为系统预置的问题类型,不支持编辑和删除。 图1 变更场景 若不使用系统预置的变更场景
概述 您可以通过云运维中心的应用管理功能对资源进行分组管理,管理云服务对象与应用之间的关系,管理范围包含华为云、友商云(当前支持阿里云、AWS)核心资源和IDC离线资源,为混沌演练、变更管控、账号管理等功能提供统一可靠的资源分组信息。 应用的结构类型根据复杂程度分为轻量级应用和大型应用