检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
企业项目 应急预案所属的企业项目,默认为default 所属应用 预案所属的应用 恢复时长 预期的故障恢复时长 版本号 版本号 摘要 描述应急预案主要信息 填写故障处理,应急预案类型可以选择“自动化预案”和“文档预案”。 若选择“自动化预案”,处理方式可以选择“脚本”和“作业”。 图3
资源管理 COC提供以资源为基础的资源管理视图。面向各类资源提供纳管能力,可建立资源拓扑;按照资源类型汇聚,支持按照标签查询资源列表,并提供UniAgent安装能力。 Global 应用管理 COC提供以应用为中心的资源管理视图。提供应用和资源关联关系的建模能力。按照“应用 > 区域
在响应预案部分,选择针对本次流转规则相关联的脚本、作业和应急预案,脚本和作业的添加请参考自动化运维。 脚本、作业和自动化预案支持故障自愈能力,选择脚本作业和自动化预案后会显示“自动执行”勾选项,勾选后带出脚本或作业对应的参数 图5 填写响应预案 参数值、Region ID、和目标实例填写格式为${}
比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。
流程管理 流程管理支持自定义事件、问题的级别和描述,同时支持配置事件或问题升降级,暂停的审批配置。按照事件和问题管理流程制定级别的类别。 事件流程 问题流程 变更场景 父主题: 基础配置
执行账号:即租户账号名,可以通过我的凭证页面查看。 执行区域:执行的目标对象所在的区域。 委托名称:IAM中委托对象的名称。 项目ID:IAM中的项目概念,执行的目标对象所在的项目的ID。 位置并发:可选参数。位置并发是控制正在执行的子工单数量,会影响到子工单的最大执行失败数。eg:并发5,则最大错误数为错误阈值
流程管理”页面,单击页面事件流程>事件级别。 图1 事件级别 单击操作列“编辑”修改事件级别和描述。,若某个级别不需要开启可将列表中是否开启的开关关闭。 修改完后可在事件管理页面中查看最新的事件级别。 图2 编辑事件级别和描述 父主题: 事件流程
概述 作业是操作步骤(原子动作)的集合,一个作业可以包含一个或多个操作,例如重启ECS、执行脚本等。 作业管理提供对公共作业、自定义作业的创建、修改、克隆、删除等管理的能力以及在目标实例上执行作业的能力。通过作业管理,用户可以在目标实例执行定义好的特定操作步骤。作业管理支持最多100个版本。
管理排班人员 提供排班人员的查询、修改、删除操作。 操作场景 排班人员发生变化时,可进行修改、删除操作。不同场景修改人员方式不同,具体如下。 全局排班+固定班次 登录COC。 在左侧导航栏选择“基础配置 > 排班管理”页面,选择排班场景和排班角色,单击排班“操作”列的“删除”,即可删除排班。
通过云运维中心对汇聚告警进行相关处理。 可以选择作业和脚本两种方式对汇聚告警进行处理动作。 操作步骤 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”,进入“告警管理”页面。 单击“汇聚告警 > 当前告警”,进入“当前告警”页面。 选择需要处理的告警,单击操作列“更多 > 处理”,进入“告警自动处理”页面。
对应API接口:自定义策略实际调用的API接口。 授权项:自定义策略中支持的Action,在自定义策略中的Action中写入授权项,可以实现授权项对应的权限功能。 依赖的授权项:部分Action存在对其他Action的依赖,需要将依赖的Action同时写入授权项,才能实现对应的权限功能。 IAM
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 单击“提交”,右侧弹出“确认执行”页面。
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 单击“提交”,右侧弹出“确认执行”页面。
随着传统IT基础设施运维向云服务运维方式的转变,传统的运维手段面临服务间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 单击“提交”,右侧弹出“确认执行”页面。
m时,创建企业微信Warroom作战室必要的企业微信配置信息,用户可通过移动应用管理页面管理企业微信的配置信息。 查看移动应用管理 登录COC。 在左侧导航树中选择“基础配置 > 移动应用管理”页面。当该租户已绑定企业微信时,会展示绑定的信息。当该租户未绑定企业微信时,会展示新增企业微信密钥界面。
不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 是否关机:勾选“立即关机”,工单开始执行时会自动将未关机的实例关机。 设置“登录凭证”。
事件流程 支持事件级别、事件类别、事件降级和事件暂停的审批配置 事件级别 事件类别 事件审批 父主题: 流程管理
集成管理 本文介绍如何集成监控源。 操作场景 每个监控源的集成配置都有独立的集成接入步骤,需要单独接入,各监控源的详细步骤可查看集成接入中各监控集成说明。 操作步骤 该步骤主要介绍华为云监控系统、开源监控系统的接入步骤 登录COC。 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”配置页面。
WarRoom 支持创建WarRoom和查询WarRoom信息的接口 创建Warrom 查询WarRoom信息 父主题: 故障管理