检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标准化故障管理 实践场景 某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。
概述 告警管理功能提供告警数据的收集、纳管和处理。 本功能支持集成多个现有或第三方等监控系统(比如CES、AOM、Prometheus),并将业务下分散的告警信息进行统一收集,生成原始告警。用户可以在集成管理处启用或禁用已有告警源,或者接入第三方监控系统。 本功能还支持汇聚告警的
概述 事件管理是对应用的所有事件进行管理,包含事件的受理、驳回、转单、处理到闭环整个生命周期管理。事件来源包含流转规则产生的事件、通过告警创建的事件及人工创建的事件。 事件管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。 事件处理流程: 事件被创建后状态为“未受理
概述 PRR: Production Readiness Review 生产就绪程度评估基线。 从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求,在服务产品开发前端构筑能力,进行相关需求规划、设计和开
的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 WarRoom状态 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 可以查看WarRoom列表信息。 单击需要查看的WarRoom标题。 页面展
移动应用管理 操作场景 移动应用管理用于管理事件启动WarRoom时,创建企业微信WarRoom作战室必要的企业微信配置信息,用户可通过移动应用管理页面管理企业微信的配置信息。 查看移动应用 登录COC。 在左侧导航树中选择“基础配置 > 移动应用管理”页面。当该租户已绑定企业微
概述 集成配置支持简单、快速集成现有(如华为云CES、AOM)或第三方等监控系统,将业务下所有分散的监控系统告警进行统一收口及管理。不同的监控系统通过各自独立的集成接入密钥实现对接集成。 监控系统接入后,可在原始告警中查看告警信息,通过配置流转规则后可将告警信息转事件或汇聚告警。
概述 流程管理支持自定义事件、问题的级别和描述,同时支持配置事件或问题升降级,暂停的审批配置。按照事件和问题管理流程制定级别的类别的枚举值,便于满足当前业务。 父主题: 流程管理
概述 云运维中心的韧性中心提供了应急预案功能,允许用户为系统可能发生的故障建立对应的应急预案。这样,在故障发生后,用户可以参考这些预案进行紧急恢复。创建应急预案的流程包括登录 云运维中心,选择“韧性中心>应急预案”页面,并进行应急预案的自定义创建,包括填写基本信息、选择处理方式(如“脚本”或“作业”)
快速配置中心 操作场景 COC快速配置中心面向华为云全局云服务提供场景化的集中配置入口,通过最佳实践的极简配置实现多区域、多账号、定时的自动化操作,为后续运维降低操作门槛。 您可以在快速配置中心完成云运维中心配置和云服务配置: 云运维中心配置:涵盖资源应用管理、自动化运维、故障管
人员管理 概述 如何使用人员管理 父主题: 基础配置
应急预案 概述 自定义预案 公共预案 父主题: 韧性中心
改进管理 概述 改进管理 父主题: 故障管理
修订记录 日期 修订记录 2023-11-30 第一次发布 2024-06-06 随服务版本刷新资料内容
变更日历 操作场景 变更单创建后,可以通过变更日历查看变更单的分布和详情,支持按月和日展示,具体操作如下。 查看日历 登录云运维中心。 在左侧导航栏选择“变更管理 >变更日历”。 页面默认显示本月审批后的变更分布,单击变更标题可进入变更单详情页面。 支持按照变更应用、变更级别、状态和变更标题筛选。
运维概览 操作场景 通过云运维中心查询、跟踪运维待办事项(事件单/汇聚告警/待办),查询账号下已纳管的应用、资源等统计数据。 运维概览 登录云运维中心。 进入COC“总览”后,左上角可以查询到待处理事件、待处理告警、我的待办的统计数量,右侧可查看应用、资源等统计数据。 图1 运维事务跟踪
概述 云运维中心支持对弹性云服务器 ECS、云数据库 RDS、Flexus应用服务器L实例、裸金属服务器 BMS等多种资源进行批量操作,具体操作包含批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等场景。 支持场景 表1 资源运维支持的资源和场景 资源类型 批量开机 批量关机
认证鉴权 调用接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 Token认证:通过Token认证调用请求。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。推荐使用AK/SK认证,其安全性比Token认证要高。
签中查看。 注意事项 只有责任人可以将当前告警进行清除。 告警数据留存期为31天,逾期将自动清除,包含历史告警页签的数据。 操作步骤 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 当前告警”。 选择需要清除的告警,单击操作列“清除”。 设置“清除告警”。
事件流程 事件级别 事件类别 事件审批 故障复盘 父主题: 流程管理