检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全链路故障诊断 操作场景 当事件创建后,您可以通过全链路故障诊断,快速定位故障根因。我们面向客户应用提供应用层、组件层、资源层的关系拓扑,实现基于资源和应用告警的异常染色,并提供资源核心指标查看与实例诊断能力。 前提条件 已完成在CMDB的应用创建和资源关联,并完成应用拓扑编辑。 确保已接入CES监控,请到集成管理进行配置。
制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求,在服务产品开发前端构筑能力,进行相关需求规划、设计和开发工作,并在服务上线前进行生产准入审视。 父主题: PRR评审
单击。 图1 应用拓扑 单击“自定义编辑”,进入拓扑编辑状态。 选中组件,编辑组件调用连线,点击确定。 图2 编辑组件连线 点击“确定”,退出编辑状态。 图3 退出编辑状态 父主题: 应用管理
exit 1)。 如果您已有自定义脚本,则可以在下方根据脚本名称选择脚本,就会将脚本内容和参数展示在页签中,填写合适的超时时间后,单击“下一步”。 图3 选择自定义脚本 参考演练任务的步骤9和步骤17,即可创建完成攻击场景为自定义故障的演练任务。 自定义脚本样例 下面为您介绍一个自定义脚本样例。
通知管理为用户创建通知规则,通知规则包含事件通知、变更通知和问题通知。 当产生事件单、问题单或有变更单时,通知规则会根据事件/问题/变更信息和配置的通知规则进行信息匹配,解析出需要通知的人员、内容和发送通知的渠道,进行发送通知信息,实现了自动通知的功能。 事件和变更的通知模板为系统内置的,您可以根据您的场景选择通知模板。
公共脚本说明:COC提供的预定义脚本,用户对公共脚本具有只读和执行权限,具备一些常见的功能,如清理磁盘。 操作场景 通过Cloud Operations Center执行服务提供的公共脚本。 注意事项 在执行脚本时需要确认是否有目标机所属组件资源权限。 操作步骤 登录COC。 在左侧
1, "sensitive" : true } ] } 响应示例 状态码: 200 脚本uuid { "data" : "SC2023102521413701c4a8a62" } 状态码: 400 包含错误信息 { "error_code" : "COC.00040701"
预置好参数名称与参数默认值。脚本执行时,脚本入参值支持“手动输入”和“参数仓库”两种方式。“手动输入”方式需要用自行填写参数值;“参数仓库”方式,需要从参数中心选择预置好的参数值,请注意选择参数所在区域、参数名称和参数联动模式。 图2 手动输入脚本参数 图3 参数仓库选择脚本参数
新增影响应用 在主屏可以看到添加的应用,支持填写故障开始时间、恢复时间及故障描述。提交后该应用的状态会变为恢复状态。 受影响应用支持执行应急预案快速恢复故障、同时可以查看该应用的告警、事件和变更信息。 图2 影响应用页面 父主题: WarRoom
事件创建改进单 操作场景 事件单受理过程发现该故障有改进事项,可创建改进单进行跟进处理。 前提条件 事件受理后才能创建改进单。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 事件管理”,选择“待处理的”页签,单击事件标题进入“事件详情”页面。 在页面的右侧点击选择创建改
实例。 f.选择“分批策略”和“熔断策略”。 可根据业务选择是否勾选入库人工审核。 图20 编辑人工审核 根据业务选择是否开启消息通知,开启时,勾选通知策略,选中通知对象和通知渠道。 图21 编辑通知 单击“提交”,即可成功创建定时任务。 执行的作业和脚本可在本服务左侧菜单“自动
CONTINUE_ORDER 响应参数 无 请求示例 { "batch_index" : "1", "instance_id" : 383, "operation_type" : "RETRY_INSTANCE" } 响应示例 无 状态码 状态码 描述 200 execution_uuid
报告分析。 注意事项 若出现实例不可选,请排查以下三种情况: 该实例UniAgent状态是否正常 是否为Cloud Operations Center补丁管理支持操作系统 该实例是否处于关机状态 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面。
摘要”。 状态说明: 已安装:补丁符合补丁基线,已经安装在ECS实例上,并且没有可用更新。 已安装非基线补丁:补丁未包含在补丁基线中,但已安装到ECS实例上。 已安装待重启:补丁已被修复,但需要重启ECS实例才可生效。 已拒绝:在补丁基线的补丁例外中被拒绝的补丁,该状态的补丁就算满足基线也不会被修复。
在响应预案部分,选择针对本次流转规则相关联的脚本、作业和应急预案,脚本和作业的添加请参考自动化运维。 脚本、作业和自动化预案支持故障自愈能力,选择脚本作业和自动化预案后会显示“自动执行”勾选项,勾选后带出脚本或作业对应的参数 图5 填写响应预案 参数值、Region ID、和目标实例填写格式为${},需要
持ECS和BMS资源类型)的密码。 图1 执行重置密码公共脚本 您在COC中执行公共脚本时,需要选择实例,而能够选择到实例的前提条件为: 您的资源实例信息已经同步到COC中,具体操作指导请见:同步资源; 您的资源实例已经安装UniAgent且UniAgent运行正常、状态为“运行中”;
项目的ID 图9 查看项目 图10 获取项目ID 填写执行基本信息,包含执行描述和标签。可按照标签管理中的步骤创建标签。 图11 填写执行基本信息 选择作业在目标实例的执行模式,分为“所有步骤一致”和“每个步骤独立”两种。 表1 目标实例模式说明 目标 说明 所有步骤一致 本作业涉及的所有步骤将按顺序在目标实例执行
strings 责任人,排班场景和排班角色(排班场景和排班角色是作为组合项)不能同时为空,必须选择一个 最小长度:0 最大长度:255 数组长度:0 - 1 assignee_scene 否 String 排班场景,排班场景和排班角色(排班场景和排班角色是作为组合项)不能同时为空,必须选择一个最小长度:0
执行记录”页面,选择“作业工单”页签。可对作业工单进行“克隆操作”和“ 编辑标签”。 克隆:单击“克隆”,将跳转至执行作业,可按照执行自定义作业中的操作步骤再次执行该作业。 编辑标签:可按照标签管理中的步骤,对作业工单的标签进行编辑。 图1 作业工单 选择一个状态为“执行中”或“异常”或“已暂停”的作业工
单击“接入集成”进入新增集成页面。 图1 接入集成 在新增集成页面有对集成的介绍和集成接入步骤,根据步骤进行集成,集成完成后单击底部“确认集成”。 确认集成后,在集成管理页面“已集成”部分,接入源状态会变为“已启用”。 该步骤主要自定义监控系统接入步骤 登录COC。 在左侧导航栏选择“故障管理