检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组建的会议。在Warroom页面可以添加与会成员、发送故障进展、添加影响应用等操作。 前提条件 该应用下有正在处理的事件单,在事件处理页面启动WarRoom。 WarRoom状态 故障信息 影响应用管理 与会成员 进展通告 新增起会规则 修改起会规则 父主题: 故障管理
String ecs云服务器ID 最小长度:1 最大长度:64 agent_sn 是 String UniAgent_sn 最小长度:1 最大长度:32 project_id 是 String 项目Id 最小长度:1 最大长度:32 region_id 是 String 服务器所属region
图2 查询SLA记录详情 SLA记录详情里的“SLA信息”表展示了工单的“SLA状态”与创建SLA模板时设置的SLA规则强相关,当工单的状态类型持续时间超过了SLA规则设置的时间,状态自动修改为“已打破”。 “持续时间”与工单的状态变化强相关。 父主题: SLA管理
补丁基线不生效? 在使用补丁管理扫描或修复功能前,请确认创建的补丁基线已经设置为默认基线并且使用场景正确。 父主题: 补丁管理常见问题
时会通过用户所设置的补丁基线进行补丁的过滤筛选,扫描或者修复符合基线的补丁。 补丁基线拥有ECS、CCE以及BMS三种使用场景,用户可以根据具体使用场景,创建合适的补丁基线。 Cloud Operations Center提供了各操作系统的公共补丁基线作为初始ECS和BMS场景默
固定班次:对人员进行固定排班管理,直接为排班角色设置相应的人员。 轮班(周一 -- 周日):对人员进行轮班管理,可根据轮班规则,按照时间生成对应的排班 排班维度:排班的影响范围,可选择“应用排班”和“全局排班”。 全局排班:排班不考虑您创建的应用,即设置的排班与应用无关 应用排班:排班需按照应用创建,不同应用排班不同
补丁修复 补丁修复提供了用户可以修复补丁扫描出的不合规ECS/CCE/BMS实例的能力,补丁修复功能会将ECS或CCE实例上不合规的补丁进行升级或安装。 操作场景 通过Cloud Operations Center执行补丁修复功能。 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维”
批量ECS操作 ECS操作为用户提供了管理ECS实例的能力,支持进行批量开机、关机、重启、切换操作系统、重装操作系统等操作。 批量开机 批量关机 批量重启 批量重装操作系统 批量切换操作系统 父主题: 资源运维
图2 创建扫描任务 单击“添加实例”。 图3 选择实例 选择需要进行扫描的ECS/CCE/BMS实例。 图4 选择需要扫描的ECS实例 图5 选择需要扫描的CCE实例 图6 选择需要扫描的BMS实例 设置分批策略。 分批策略: 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
若选择的任务是公共作业下的ECS开机、ECS关机、ECS重启、OS补丁扫描或OS补丁修复,系统执行时默认使用名为ServiceAgencyForCOC的委托。 风险等级 必选参数。 风险等级有以下三种: 高 中 低 说明: 若选择高风险,入库人工审核默认开启。 设置时区,当选中单次执行
单击“创建扫描任务”。 图5 单击创建扫描任务 单击“添加实例”。 图6 单击选择实例按钮 选择需要进行扫描的ECS或CCE实例。 图7 选择需要扫描的ECS实例 图8 选择需要扫描的CCE实例 设置分批策略。 分批策略: 自动分批:用户选择的待执行机器,会根据默认规则,分成多批。 手动分批:用
故障发生时间”及“故障恢复时间”。此处填写的业务中断时间计入对应应用的SLO中断记录。 图1 清除告警-业务中断 生成SLO中断记录需要先设置对应的SLA规则、SLO规则,并且该告警存在对应的SLA记录。 输入备注,单击“确定”,清除告警。 备注可以包含中文字符、英文字母、数字及特殊字符组成,长度不超过100个字符。
不分批:用户所有待执行的机器会全部在同一批次。 图5 选择分批策略 设置“熔断策略”。 熔断策略:用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 图6 设置熔断阈值 单击“提交”,执行脚本。 图7 “提交”按钮 父主题:
根据企业的业务组织,在您的华为云账号中,给企业中不同职能部门的员工创建IAM用户,让员工拥有唯一安全凭证,并使用COC服务。 根据企业用户的职能,设置不同的访问权限,以达到用户之间的权限隔离。 将COC服务的相关操作委托给更专业、高效的其他华为云账号或者云服务,这些账号或者云服务可以根据权限进行代运维。
单击“确定”。 图11 添加任务 单击“+操作类型”,设置当前任务的操作类型,操作类型分为云服务API、控制、自定义脚本三种。 云服务API:包含ECS相关操作原子、执行API和等待API调用结果。ECS操作详见:ECS操作。 控制:包含审批、暂停和睡眠。 自定义脚本:支持选择
确定性故障管理 统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。 承载Warroom和故障回溯能力:现网事件智能启动Warroom,缩短故障处理非必要耗时,指挥中心实时观测故障处理进展。故障回溯实现问题总结和经验沉淀,客户问题不重犯,缩短故障恢复MTTR。
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。