检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
统一管理平台。 变更配置:承载变更中心相关配置的业务,支持审批配置等变更基础配置的能力。支持用户根据自身业务需求,自定义变更单审批流程、审批人员。 变更管控:是对资源进行变更操作时,通过工单提权的方式,才能执行脚本、作业或查询账号密码等操作,确保人和所操作的对象和实际资源保持一致,防止权限过大,降低安全风险。
系统主要功能部分丧失、数据不能保存,系统的次要功能完全丧失,问题局限在本模块,导致模块功能失效或异常退出。 一般: 次要功能未完全实现、但不影响使用,如提示信息不太准确,或用户界面差,操作时间长,模块功能部分失效等。 提示: 较小错误的软件缺陷,使操作者不方便或遇到麻烦,但不影响功能上的操作和执行。 说明
事件来源为“告警”的事件可以在事件详情中查看关联的原始告警。 执行响应预案 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 根据执行的响应预案。 若选择应急预案,在下拉列表选择相应的应急预案,单击“执行响应预案”。
统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标 天/月 个 月度SLO期望值 SLO管理 月度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); 天/月 百分比 月度SLO实际值 SLO管理 月度应用实际达成的SLO情况
创建变更单 操作场景 应用涉及变更事项,可通过创建变更单记录变更的范围和变更方案,变更方案支持上传详细的变更方案或通过作业实现变更。 前提条件 1、需要先在应用管理中创建您的应用。 2、需要在排班管理创建变更审批人的排班。 注意事项 确认变更单内容,按实际变更需求申请变更单。 操作步骤
脚本内容首行自动添加的解释器,例如#!/usr/bin/python需要用户的机器让有python的软链接,若缺乏软链接,需要用户自行修改解释器,适配为机器可执行的解释器。 校验高危命令:可对脚本内容进行高危检测。 校验范围:检测涉及的高危命令范围,可点击“高危命令说明”查看校验的规则列表。
审批:若企业管理员在定时运维场景配置了入库人工审核,则需要审批人审批后,定时运维任务才能执行启用/禁用/编辑操作。 启用/禁用:禁用状态下的定时运维任务不生效,禁用状态才能启用,启用状态下才能禁用。 编辑:您可以根据需要,自行修改定时运维任务的名称、版本号、任务类型等。 删除:
支持哪些攻击场景? 支持对华为云ECS实例、RDS实例、CCE集群和Pod等多个云服务的常见故障场景的模拟,支持对多个故障场景的自由编排和组合。 父主题: 韧性中心常见问题
通知用户:添加“删除前通知”或“未修改通知”时需要设置,在下拉列表选择通知用户。配置用户详细操作请参考人员管理。 修改的通知时间若是相对时间,则需要注意以下事项: 未修改通知,通知时间会变成相对于修改的时间(单击修改参数按钮的时间)进行通知,只要单击了修改参数按钮,通知时间就会改变。 删除前通
Long 最后一次提交解决方案时间戳 最小值:1 最大值:9999999999 status String 状态KEY,参考:枚举 事件状态 最小长度:0 最大长度:255 create_time Long 创单时间戳 最小值:0 最大值:999999999 creator String
应用中存在的根本原因问题。其主要目标是降低产品/服务现网故障数量,并提高服务的整体质量促进产品或应用质量的不断完善,防止问题的再次发生。问题管理包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
脚本描述:最大256个字符。 单个参数的参数名称 64个字符,只支持字母+数字+下划线。 单个参数的值最大1024个字符,正则表达式如下:^((?!.{2,})[a-zA-Z0-9_-/.*\x20?:",=+@\[{]}])*$。 审批人最多支持5人。 脚本输出的日志总量只支持1MB。 URI
选择异常的脚本工单 单击“强制结束”,结束异常脚本工单。 图3 操作异常的脚本工单 选择一个状态为“执行中”的脚本工单,单击对应的“脚本名称”,进入“脚本工单详情”页面。 图4 选择执行中的脚本工单 单击“暂停”或“强制结束”,即可暂停执行或结束脚本工单。 图5 操作执行中的脚本工单
制定PRR模板参数说明 参数名称 说明 模板名称 PRR模板的名称 模板描述 PRR模板的详细描述 应用分类 PRR模板所属的应用分类 PRR检查项 PRR模板提前制定的产品立项、产品设计、产品上线三个阶段的检查项信息 制定检查项信息,单击选择检查项所属的评审阶段“产品立项/产品设计/产品上线“,
警填写的业务中断时间自动计入对应应用的SLO中断记录。具体操作步骤如下: 创建SLA规则,设置触发类型:告警管理,选择级别和应用,需要包含汇聚告警级别和应用。 创建SLO规则,选择应用,需要包含汇聚告警应用。 汇聚告警产生后,条件满足SLA记录设置的级别和应用,生成对应的SLA记录。
根据页面的运行安装命令进行手动安装UniAgent。 图3 “手动安装UniAgent”页面 UniAgent安装完成后,单击 “返回自动安装”。 单击“设置安装机”,设置刚才完成UniAgent安装的机器为安装机。 图4 设置安装机 在弹框中填写设置安装机相关信息,单击“确认”。 图5 确定安装机
on中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。如果您希望进行更加精细的权限控制
密钥管理 操作场景 为了更加安全地保护您的主机帐号密码,云运维中心会使用DEW服务来加密您的主机帐号密码。在使用密钥管理之前,请先在DEW创建好密钥。 配置密钥 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“账号管理”。 单击右上方“密钥管理”。
是否必选 参数类型 描述 limit 否 Long limit 最小值:0 最大值:1000 缺省值:0 offset 否 Long 查询数量 最小值:0 最大值:9223372036854775807 缺省值:10 incident_num 否 String 事件单号 精确查询