检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
事件历史记录 操作场景 可以查看事件的历史记录,包含事件的整个处理过程。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 事件管理”,选择“待处理的”页签,单击事件标题进入“事件详情”页面。 图1 进入事件页面详情 单击“ 事件历史”查看事件历史记录。 图2 查看事件历史记录
故障模式是什么? 故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
发起PRR评审的基本参数表 参数名称 说明 PRR评审名称 PRR评审的名称 PRR评审描述 PRR评审的描述 应用名称 PRR评审所属的应用名称 应用责任人 PRR评审所属的应用的责任人 应用介绍 PRR评审所属的应用的介绍信息 应用分类 PRR评审所属的应用的类别信息 评审阶段
对应API接口:自定义策略实际调用的API接口。 授权项:自定义策略中支持的Action,在自定义策略中的Action中写入授权项,可以实现授权项对应的权限功能。 依赖的授权项:部分Action存在对其他Action的依赖,需要将依赖的Action同时写入授权项,才能实现对应的权限功能。 IAM
强制结束:单击“强制结束”,将结束本次作业的所有执行任务。 结束所有批次:单击“结束所有批次”,将结束当前步骤所有批次的执行任务。 取消:单击“取消”,将结束单台实例的执行任务。 编辑标签:可按照标签管理中的步骤,对作业工单的标签进行编辑。 图3 操作作业工单 单击“输入”页签,查询当前选中作业的基本信息以及自定义原子任务的脚本内容。
WarRoom启动后,可以添加新的受影响的应用,本节介绍如何新增WarRoom中的影响应用。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 > WarRoom”,可以查看WarRoom列表信息。 单击WarRoom列表中WarRoom名称,进入对应的“WarRoom详情”页面。
Warroom是什么? 为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。已受理的事件可以启动Warroom,具体参考启动WarRoom。 Warroom使用指导,请参考WarRoom管理。 父主题: 故障管理常见问题
选择一个状态为“异常”的脚本工单,单击对应的“脚本名称”,进入“脚本工单详情”页面。 图2 选择异常的脚本工单 单击“强制结束”,结束异常脚本工单。 图3 操作异常的脚本工单 选择一个状态为“执行中”的脚本工单,单击对应的“脚本名称”,进入“脚本工单详情”页面。 图4 选择执行中的脚本工单
查看资源详情 提供用户查看资源详情的操作。 操作场景 通过Cloud Operations Center查看已关联应用的资源详情。 操作步骤 登录COC。 在左侧菜单栏选择“资源管理 > 应用资源管理”,进入“应用资源管理”页面,选择“应用管理”页签,在“弹性云服务器ECS”模块
手机号:用户使用的手机号码 邮箱:用户使用的邮箱号码 企业微信:用户企业微信群聊机器人的webhook地址 钉钉:用户钉钉群聊机器人的webhook地址 飞书:用户飞书群聊自定义机器人的webhook地址 人员信息中的通讯方式用途简介: 在编辑通讯方式保存后,系统后台会创建对应的消息通知
填写脚本基本信息,确认脚本风险等级,并选择脚本归属的企业项目。 图2 填写信息 填写脚本内容,可选择脚本类型为shell脚本、python脚本或者bat脚本,并对脚本内容进行高危命令校验。 脚本内容首行自动添加的解释器,例如#!/usr/bin/python需要用户的机器让有python的软链接,若缺乏软链接
支持哪些攻击场景? 支持对华为云ECS实例、RDS实例、CCE集群和Pod等多个云服务的常见故障场景的模拟,支持对多个故障场景的自由编排和组合。 父主题: 韧性中心常见问题
单击“创建演练规划”,选择故障模式,执行人,区域和计划演练时间 ,单击“确认”,即可完成演练规划的创建。 图2 创建演练规划 演练规划指定的执行人在演练规划列表操作项里单击“接单”,进入创建演练任务页面,演练任务关联选择的故障模式和区域。并且可以对后续的演练任务进度进行跟踪。 图3 通过演练规划接单进入创建演练任务页面
资源操作工单列表 状态:已暂停、创建中、执行中、已取消、成功、异常 单击“ID”列对应的“资源操作工单ID”,可查询到对应工单详情。 当工单的状态是暂停状态时,单击“继续”,可以让工单继续。 当工单的状态为执行中时,单击“暂停”,可以让工单暂停。 当工单状态为非完成状态时,单击“强制结束”,可以让工单停止。
新用户首次登录云运维中心 COC,由于COC提供了对云服务资源的自动化运维、故障管理等能力,需要获得访问其他云服务的委托权限。COC需要创建名为ServiceLinkedAgencyForCOC和ServiceAgencyForCOC的委托。委托包含的权限可见表1以及表2。 图1 开通COC 表1
获取项目ID 操作场景 在调用接口的时候,部分URL中需要填入项目ID,所以需要获取到项目ID。有如下两种获取方式: 调用API获取项目ID 从控制台获取项目ID 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目列表API获取。 获取项目ID的接口为“GET https:
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则
补丁工单 提供用户查看、操作补丁工单的能力。 前提条件 用户使用补丁管理,系统生成对应的工单。 操作场景 通过Cloud Operations Center查看补丁工单。 操作步骤 登录COC。 在左侧导航栏选择“任务管理 > 执行记录”页面,选择“补丁工单”页签。 用户可以通过
应急预案基本信息参数说明 参数名 参数描述 应急预案名称 用户自定义应急预案名称 企业项目 应急预案所属的企业项目,默认为default 所属应用 预案所属的应用 恢复时长 预期的故障恢复时长 版本号 版本号 摘要 描述应急预案主要信息 填写故障处理,应急预案类型可以选择“自动化预案”和“文档预案”。
随着传统IT基础设施运维向云服务运维方式的转变,传统的运维手段面临服务间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计