检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
填写“故障发生时间”及“故障恢复时间”。此处填写的业务中断时间计入对应应用的SLO中断记录。 图1 清除告警-业务中断 生成SLO中断记录需要先设置对应的SLA规则、SLO规则,并且该告警存在对应的SLA记录。 输入备注,单击“确定”,清除告警。 备注可以包含中文字符、英文字母、
在左侧导航栏选择“基础配置 > 通知管理”页面,选择需要编辑的通知,在列表中的“操作”列单击对应的“编辑”,参考创建通知的步骤3进行编辑和保存。 图3 编辑通知 删除通知 登录COC。 在左侧导航栏选择“基础配置 > 通知管理”页面,选择需要删除的通知,在列表中的“操作”列单击对应的“删除”,
填写脚本入参。脚本入参在录入自定义脚本时已预置好参数名称与参数默认值。脚本执行时,脚本入参值支持“手动输入”和“参数仓库”两种方式。“手动输入”方式需要用自行填写参数值;“参数仓库”方式,需要从参数中心选择预置好的参数值,请注意选择参数所在区域、参数名称和参数联动模式。 图2 手动输入脚本参数 图3 参数仓库选择脚本参数
已完成在CMDB的应用创建和资源关联,并完成应用拓扑编辑。 确保已接入CES监控,请到集成管理进行配置。 已创建事件单。 如果需要展示CCE集群中的负载,pod信息,需要在CCE中对负载进行标签配置(每个分组只能添加一个CCE集群资源,否则不展示负载等信息)。 图1 配置CCE负载标签 操作步骤
ID、和目标实例填写格式为${},需要通过该表达式解析对应的值,自动化执行参数示例说明 在分派规则部分,选择分派的对象,最后单击下方的“提交”,完成流转规则的创建。 图6 填写分派规则 自动化执行参数示例说明 参数值、Region ID、和目标实例填写格式为${},需要通过该表达式解析对应的值,相关示例如下:
急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。 解决方案 端到端事件流程:明确标准化事件处理流程,通过WarRoom实现多运维兵种协同作战,通过响应预案提升事件处理效率。
新建事件审批流程 配置完成后在事件处理页面进行事件降级需要审批,同时支持事件暂停。 图3 事件处理页面 1.事件降级和暂停审批流程配置生效后创建的事件单流程才会生效,配置流程之前不会生效。 2.事件在已受理状态可进行升降级和暂停操作。 3.事件闭环之前需要将升降级和暂停的电子流闭环 4.事件升级无需审批
登录COC。 在左侧导航栏选择“基础配置 > 流程管理”页面,单击页面问题流程>问题审批,可配置问题降级和问题挂起的审批流程。系统默认问题降级和挂起需要创单人审批 图1 问题审批 单击“新建问题审批”配置问题降级或问题挂起的流程,选择问题流程、问题级别和审批配置。 图2 新建问题审批流程
在故障管理>事件管理创建事件单,具体操作详见创建事件单。 告警转事件 在故障管理>事件管理创建事件单,具体操作详见告警转事件。 流转规则自动生成事件 流转规则自动生成事件,需要做以下步骤: 登录COC。 同步人员,具体参考人员管理。 设置排班,并给排班中添加排班人员,具体参考排班管理。 集成监控系统,自动上报告警信息,具体参考集成管理。
在“修改参数”页面,参数名称、企业项目、参数类型不可修改,显示如下图。 图2 参数详情 根据实际需求修改参数,单击“提交”即可。 修改的通知时间若是相对时间,则需要注意以下事项: 未修改通知,通知时间会变成相对于修改的时间(单击修改参数按钮的时间)进行通知,只要单击了修改参数按钮,通知时间就会改变。
补丁操作出现lsb_release not found异常如何处理? 1.请确认ECS实例上有是否有lsb_release命令包,若没有,则安装相应命令包。 2.若ECS实例上有lsb_release命令包,则确认使用的UniAgent版本是否高于1.1.0版本,若高于1.1.0则降UniAgent版本为1
起会规则命中逻辑:根据事件启动warroom的区域、应用、事件级别,匹配起会规则的区域、应用、事件级别,会将加入群组的人加入到warroom会议和创建的移动应用中(移动应用需要配置方可成功加入,详见移动应用管理) 图2 新增起会规则 创建完成,在起会规则列表查询创建的规则。 父主题: WarRoom
授权”。 图1 IAM用户授权 授权模型选择“角色授权”。 图2 选择授权模型 授权方式选择“直接给用户授权(适用于企业项目授权)”,根据需要分配“COC FullAccess”或“COC ReadOnlyAccess”策略,策略详情可查看COC权限管理。 图3 分配COC策略
每个监控源的集成配置都有独立的集成接入步骤,需要单独接入,各监控源的详细步骤可查看集成接入中各监控集成说明。 操作步骤 该步骤主要介绍华为云监控系统、开源监控系统的接入步骤 登录COC。 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”配置页面。 在集成管理配置页面根据业务需要选择要接入的接入源,单击“接入集成”进入新增集成页面。
问题类型:必填,选择问题的类型 责任人:必填,选择责任人后该问题会流转至对应的责任人名下。当前支持排班和个人,若需设置排班,参考排班管理 问题管理若需要收到通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理。 父主题: 问题管理
资源操作工单 提供用户查看资源操作工单的能力。 前提条件 用户使用ECS操作、RDS操作、BMS操作、FlexusL操作等,系统生成对应的工单。 操作场景 通过Cloud Operations Center查看ECS工单、RDS工单、BMS工单、FlexusL工单。 操作步骤 登录COC。
自定义SLA 租户可自由定制自己需要的SLA。 查询自定义SLA 登录COC。 在左侧菜单栏选择“基础配置 > SLA管理”页面。 在“SLA”页面选择“自定义SLA”页签,即可查看自定义SLA列表。 图1 SLA列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的
在“批量开机”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的
在“批量重启”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的
若响应预案为“作业”和“脚本”,核实作业和脚本信息后,单击“提交”。 图3 执行作业或脚本页面 若响应预案选择了应急预案,应急预案为自动化预案,需要单击步骤中的“执行”执行脚本或作业,完成后单击“提交”;应急预案为文本预案,根据对应的步骤执行后,单击“提交”。 图4 执行应急预案页面 处理事件过程可查看事件关联的原始告警。