检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
演练规划主要做什么? 演练规划能够帮助演练管理人员对故障模式进行演练排期,管理演练进展,是故障模式能够通过演练进行实战检验的管理保障。 父主题: 韧性中心常见问题
SLO指标配置 用户可以通过此页面查看SLO指标配置。 登录COC。 在左侧菜单栏选择“基础配置 > SLO管理”,进入“SLO管理”页面。 在SLO管理列表中,选择对应“操作”列中“指标配置”,进入到SLO指标配置页面,选择添加,编辑,删除SLI指标。 图1 SLI指标配置 单击右下角“创建”完成指标配置。
本,用以指导变更或其他高风险操作。指标详情可查看表5。 图8 SLO看板 表5 SLO看板数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 SLO总体达成情况 年度SLO期望值 SLO管理 全年度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值;
查看SLO 操作场景 用户可以通过此页面查看已经设置的SLO,包含已配置的SLI指标,SLO中断记录等。 查看SLO 登录COC。 在左侧菜单栏选择“基础配置 > SLO管理”,进入“SLO管理”页面。 图1 SLO列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应
在云服务选择组件处可切换需要查看的云服务类型。 图2 切换云服务类型 单击“编辑指标”可自定义配置展示的监控指标。 图3 编辑指标 单击右上角的“更多”,跳转到CES主机监控界面,查看原始信息。 父主题: 总览
SLO管理 查看SLO SLO指标配置 SLO中断记录 父主题: 基础配置
与其他云服务的关联 云运维中心COC服务与其他服务的关系,如图1所示。 图1 与其他服务的关系 表1 与其他服务的关系 服务名称 与其他服务的关系 主要交互功能 安全云脑 总览页面中提供用户查看到账号下的安全监控信息。从安全评分、安全监控、安全趋势三个维度呈现安全概览,并支持自定义看板。 查看安全概览
的组件。 图4 应用拓扑(组件层) 点击拓扑上的组件,查看资源层,展示该组件下的所有资源,并支持核心云服务的指标展示,如果在应用管理中有关联APM,也可以查看链路相关指标。 图5 应用拓扑(资源层) 选择应用拓扑右侧“告警”页签,查看应用告警,列表展示告警产生时间范围在右侧时间轴
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
应用场景 运维态势感知BI 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。 指标项丰富:预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。 图1 运维沙盘 资源全生命周期管理 提供资源定义、申请、发放、
故障信息 操作场景 WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 > WarRoom”,可以查看WarRoom列表信息。 单击WarRoom列表中Wa
本文介绍如何集成监控源。 操作场景 每个监控源的集成配置都有独立的集成接入步骤,需要单独接入,各监控源的详细步骤可查看集成接入中各监控集成说明。 操作步骤 该步骤主要介绍华为云监控系统、开源监控系统的接入步骤 登录COC。 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”配置页面。 在集成管
参数 说明 稳态指标 请在下拉框依次选择:目标资源、性能指标、下限值、上限值。 系统达到稳定状态时所表现出的性能指标,若在执行演练前, 稳态指标不在稳定区间内,则会取消执行演练。若在执行演练中,稳态指标不在稳定区间内,开启自动回滚后故障注入将自动停止。 监控指标 请在下拉框依次选
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
配置UniAgent 操作场景 UniAgent的全称是统一数据采集Agent,主要是作为云服务运维系统的底座, 提供中间件指标采集、自定义指标采集能力和脚本下发执行通道。本章介绍UniAgent的安装、重装、升级、卸载和状态同步操作,安装完成后您可以通过UniAgent对资源执行自动化运维。
影响应用管理 操作场景 影响应用管理主要是管理在故障发生时,涉及的影响应用有哪些,并根据应用诊断,响应预案快速恢复应用。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 > WarRoom”,可以查看WarRoom列表信息。 单击WarRoom列表中WarRoom名称,进入对应的“WarRoom详情”页面。
事件管理 事件管理主要是对应用的所有事件进行管理,包含事件的受理、驳回、转单、处理到闭环整个生命周期管理。事件来源包含流转规则产生的事件、通过告警创建的事件及人工创建的事件。 事件管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。 事件流程 创建事件 处理事件 事件历史记录
与会成员 操作场景 与会成员主要是为了快速恢复故障,将参与故障恢复的人员拉入群组,或通过电话或短信及时通知故障恢复人员响应并处理故障。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 > WarRoom”,可以查看WarRoom列表信息。 单击WarRoom列表中WarRoom
变更中心 变更中心主要承载变更流程管理业务,以变更工单模式,从变更的申请、审批、执行三个大环节管控变更业务,为变更人员、变更管理人员提供统一管理平台。 创建变更单 审批变更单 实施及闭环变更单 父主题: 变更管理
韧性中心常见问题 混沌演练是什么? 支持哪些攻击场景? 故障模式是什么? 演练规划主要做什么? 故障模式和演练任务的关系? 演练报告有哪些内容?