检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
默认规则: 启动Warroom的事件单,P1, P2, P3, P4, P5均需复盘; 未启动Warroom的事件单,P1, P2, P3, P4需进行复盘。 登录COC。 在左侧导航栏选择“基础配置 > 流程管理”。 单击“事件流程 > 故障复盘”。 选择需要修改的规则,单击操作列“修改”。
若评估状态为其他状态,详细操作请参考重新评估。 注意事项 一个应用当前支持最多评估30次,若评估达到上限,再次”重新评估”时,会提示自动删除最老的评估报告,需要用户确认后,才能开启新的评估。 开始评估 登录云运维中心。 在左侧导航栏选择“韧性中心 > 应用韧性评估”。 单击操作列“评估”。 开始应用韧性评估。
在左侧导航栏选择“故障管理 > WarRoom”。 单击需要修改的WarRoom标题。 单击右侧“更新通告”。 设置“更新实时通报内容”。 表1 更新实时通报内容参数说明 参数 说明 通报模板 可选项“首次通报”、“进展通报”、“恢复通报”。 通报内容 根据选择的通报模板填写通报内容。 限制长度1-1000个字符。
区域可用来区分同一个应用在不同区域的排班。若您的业务和区域无关,您可以忽略区域。 单击“添加人员”,填写排班信息后,单击“确定”,可查看已添加的排班人员。 图7 应用轮班排班添加人员 区域:本次排班的区域,可多选,可忽略 应用:本次排班的应用,可多选 开始时间:选择日期,重新排班策略将从该日期的00:00分开始
问题单创建后,问题责任人分析问题实际情况,若属实则问题责任人受理问题并进行后续处理,完成问题的闭环。 受理问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“受理”。 完成问题单受理,问题单状态为“定位出方案中”。
启用/禁用:禁用状态下的定时运维任务不生效,禁用状态才能启用,启用状态下才能禁用。 编辑:您可以根据需要,自行修改定时运维任务的名称、版本号、任务类型等。 删除:若定时运维任务已经无需使用,您可以删除该任务。 启用、禁用定时任务 用户仅能启用/禁用自己创建的定时任务。可查看当前租户账号下其他用户创建的定时任务。
驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“验证关闭”。 设置“验证关闭”信息。 表1 验证关闭参数说明 参数 说明 验证结论 可选项“已解决”、“未解决”。
事件创建后,事件责任人分析事件实际情况,若属实则事件责任人受理事件并进行后续处理,完成事件的闭环。 受理事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“受理”。 完成事件受理,事件状态变更为“已受理”。
您可以在定时运维页面查看定时任务的执行历史记录,历史记录呈现脚本工单/作业工单,支持跳转查看每一个工单详情。 查看定时任务执行记录 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“定时运维”。 选择需要查看的任务,单击操作列“更多 > 历史记录”。
驳回问题 操作场景 若创建人提交的问题属于非问题或其他原因可驳回问题单,驳回后创建人可重新编辑提交或撤销问题,重新提交后需问题处理人继续定位解决。 驳回问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“驳回”。
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
请确认ECS实例上有是否有lsb_release命令包,若没有,则安装相应命令包。 2.若ECS实例上有lsb_release命令包,则确认使用的UniAgent版本是否高于1.1.0版本,若高于1.1.0则降UniAgent版本为1.1.0以下重试。 父主题: 补丁管理常见问题
操作场景 事件单受理过程发现该故障有产品、运维的改进事项,可创建改进单进行跟进处理。 前提条件 事件受理后才能创建改进单。 创建改进单 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“ > 创建改进单”或“创建改进单”。
进行。 注意事项 在编辑、克隆作业时确定作业的风险等级,并如实填写风险等级。 编辑自定义作业 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“作业管理”。 在“自定义作业”页签,选择需要编辑的作业,单击操作列“编辑”。 参数信息与创建自定义作业基本相同,请参考创建自定义作业。
作进行。 注意事项 在编辑脚本时确认脚本内容的风险等级,并如实填写风险等级。 编辑自定义脚本 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“脚本管理”。 在“自定义脚本”页签,选择需要编辑的脚本,单击操作列“编辑”。 参数信息与创建自定义脚本基本相同,请参考创建自定义脚本。
可选参数,可选项“企业微信”、“钉钉”、“飞书”。 选择的与会方式会自动选择相应的通知方式。 请先在移动应用管理中配置应用,人员管理中配置应用对应邮箱。 通知方式 可选参数,可选项“短信”、“电话”。 支持多选,“企业微信”、“钉钉”、“飞书”三种通知方式由选择的与会方式自动关联。 配置用户信息请参考人员管理。
在设定的时间通知参数即将删除。最多可设置2次。 未修改通知:可选参数,设置未修改通知时间,若参数到设定时间未被修改,会按照通知方式和通知用户在设定的时间通知,最多可设置2次。 通知方式:添加“删除前通知”或“未修改通知”时需要设置,在下拉列表选择通知方式。按照通知人员预留的信息进
m拉起会将排班人员和参与者拉入对应的群组中。 排班 按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。 参与者 在下拉列表选择参与用户。可以选择多个用户。 单击“提交”。 完成WarRoom启动。 若在拉起Warroom的时候需要同时拉起群组(群组方式支持
OS诊断 操作场景 OS诊断是基于华为云积累的大量知识经验和特有的检测算法,通过采集少量GuestOS数据,帮您快速了解服务器整体运行状况并准确提供异常问题排查定位方法。 注意事项 OS诊断目标实例UniAgent状态需要为运行中,UniAgent相关操作请参考配置UniAgent。