检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标准化故障管理 实践场景 某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程
管理自定义脚本 操作场景 自定义脚本创建后,若需要审批、编辑或删除脚本,请按如下操作进行。 注意事项 在编辑脚本时确认脚本内容的风险等级,并如实填写风险等级。 编辑自定义脚本 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“脚本管理”。 在
补丁管理常见问题 补丁基线不生效? 补丁基线中安装规则基线与自定义基线的区别? 补丁工单日志中出现all mirrors were tried异常如何处理? 机器无法选择? 补丁修复后合规性报告仍然为不合规如何处理? 补丁操作出现lsb_release not found异常如何处理
故障管理常见问题 生成事件的流程是什么? 怎么能收到事件单通知? Warroom是什么?
管理定时任务 操作场景 您可以对定时运维任务进行审批、启用/禁用、编辑、删除等操作。 审批:若企业管理员在定时运维场景配置了入库人工审核,则需要审批人审批后,定时运维任务才能执行启用/禁用/编辑操作。 启用/禁用:禁用状态下的定时运维任务不生效,禁用状态才能启用,启用状态下才能禁用
资源管理常见问题 首次安装UniAgent如何操作? 如果资源无法在资源管理页面中查询到,如何处理? 无法找到应用管理层级说明页面?
变更场景 使用场景 变更管理中系统默认的变更场景字段和实际业务使用过程中有差异,支持修改变更场景枚举值。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 流程管理”页面,单击页面变更<br>场景,当前页面显示的为系统预置的问题类型,不支持编辑和删除。 图1 变更场景 若不使用系统预置的变更场景
概述 告警管理功能提供告警数据的收集、纳管和处理。 本功能支持集成多个现有或第三方等监控系统(比如CES、AOM、Prometheus),并将业务下分散的告警信息进行统一收集,生成原始告警。用户可以在集成管理处启用或禁用已有告警源,或者接入第三方监控系统。 本功能还支持汇聚告警的管理
概述 集成配置支持简单、快速集成现有(如华为云CES、AOM)或第三方等监控系统,将业务下所有分散的监控系统告警进行统一收口及管理。不同的监控系统通过各自独立的集成接入密钥实现对接集成。 监控系统接入后,可在原始告警中查看告警信息,通过配置流转规则后可将告警信息转事件或汇聚告警。
无法找到应用管理层级说明页面? 若您未创建应用,您可在“应用管理”页面中找到应用管理层级说明,如图1应用管理层级说明。您在创建应用后,将不再展示应用管理层级说明。 图1 应用管理层级说明 父主题: 资源管理常见问题
概述 云运维中心支持脚本管理功能。您可以通过执行脚本,完成复杂或重复的自动化任务。脚本管理可以对脚本进行高危检测,也支持Windows和Linux操作系统,当前脚本支持弹性云服务器 ECS、裸金属服务器 BMS、Flexus应用服务器L实例三种云资源。 自定义脚本 自定义脚本是由用户自定义创建并管理
概述 问题管理是在使用软件产品过程中,发现产品功能缺陷、性能差等问题,记录和解决应用中存在的根本原因问题。其主要目标是降低产品/服务现网故障数量,并提高服务的整体质量促进产品或应用质量的不断完善,防止问题的再次发生。问题管理包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
创建问题 操作场景 在使用软件产品过程中,发现产品功能缺陷、性能差等问题,您可以通过创建问题单进行跟踪。 问题管理支持设置通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理,通知类型需要选择“问题通知”。 前提条件 需要先在应用管理中创建您的应用。 创建问题 登录云运维中心
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级
验证问题 操作场景 问题单处理完成后,需要问题创建人验证问题是否已解决,若未解决可不通过,问题处理人重新定位处理,已解决可直接闭环。 验证问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“验证
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”
验证事件 操作场景 事件单处理完成后,通过故障是否恢复或达到预计效果,在验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,
受理问题 操作场景 问题单创建后,问题责任人分析问题实际情况,若属实则问题责任人受理问题并进行后续处理,完成问题的闭环。 受理问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“受理”。 完成问题单受理
概述 事件管理是对应用的所有事件进行管理,包含事件的受理、驳回、转单、处理到闭环整个生命周期管理。事件来源包含流转规则产生的事件、通过告警创建的事件及人工创建的事件。 事件管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。 事件处理流程: 事件被创建后状态为“未受理”