检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障复盘 操作场景 事件验证通过后,会根据故障复盘规则自动生成故障报告,在故障报告基础上对本次故障进行复盘,避免故障再次发生。故障复盘信息包含有故障现象、故障影响、故障处理过程、根因分析、解决方案,同类故障、改进措施等15种以上分析项。 系统默认P1/P2/P3/P4级别的事件和
当前告警页签清除,清除后的汇聚告警可以在历史告警页签中查看。 注意事项 只有责任人可以将当前告警进行清除。 告警数据留存期为31天,逾期将自动清除,包含历史告警页签的数据。 操作步骤 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 当前告警”。
通过流转规则可以将一条或多条原始告警汇聚成单条汇聚告警,一条原始告警可以触发多个流转规则。 注意事项 页面默认显示31天的告警信息,过期的告警将自动清除。 操作步骤 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 在“原始告警”页签,单击告警名称。 查看原始告警详情。 父主题:
权限 授权项 使用场景 下发agent作业 aom:uniagentJob:create 自动化运维中执行脚本、作业、定时任务 查询agent作业日志 aom:uniagentJob:get 自动化运维中查看脚本、作业、定时任务的日志 查询用户列表 IdentityCenter:user:list
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。
账号,且为组织(organizations云服务中设置)中的管理员或者COC云服务的委托管理员时,你可以对组织内其它账号下的资源进行统一的自动化运维操作,避免多账号操作导致的人力浪费,也降低了人工操作导致的遗漏等风险。 视图是一组筛选器,用户可以自由配置筛选范围,用于在跨账号场景下访问华为云中的资源信息。
故障复盘 操作场景 事件验证通过后,会根据故障复盘规则自动生成故障报告。如果当前故障复盘规则不符合实际业务,可以参考如下操作调整故障复盘规则。 开启/关闭规则 登录COC。 在左侧导航栏选择“基础配置 > 流程管理”。 单击“事件流程 > 故障复盘”。 单击是否开启列按钮。 完成故障复盘规则开启或关闭。
其中告警单和事件单,若有SLA记录,且产生业务中断的,则会自动生成中断记录,规则示例可参考告警单SLO中断记录;其余3类目前仅支持手动添加。 修正SLO中断记录,主要功能为通过修改中断记录中的“不可用起止时间”,自动计算不可用时长。 SLO中断记录 登录COC。 在左侧菜单栏选择“基础配置
效时段。 图8 设置生效时间 当所有SLA信息都填好后,单击“提交”,即可成功创建自定义SLA。 1、仅自定义SLA支持创建,公共SLA会自动预置在系统里,仅对租户开启“启用”,“禁用”,“查看”功能。 2、创建或修改SLA后,将对新进入SLA流程的工单开始生效,对已处于SLA流程中的工单不会生效。
当前告警”页签列表中,对要处理的告警进行清除、转事件、处理、查看历史记录操作。 图11 汇聚告警列表 在告警自动处理页面,可选择已有的脚本、作业,并选择目标实例进行自动化处理。 图12 告警自动处理 单击“转事件”,填写应用、事件级别、责任人等字段,单击“提交”,即可进行告警转事件。并会根据通知规则对责任人进行通知。
填写审批配置内容,单击“提交”。 图2 填写审批配置内容 1、填写基本信息 一次仅支持对一种变更类型配置,可同时对多个变更级别配置。 2、审批配置 审批名称自动生成。 审批人通过排班场景和排班角色决定。 审批方式:一人通过 或 全部通过。 3、支持添加多个审批环节 注:排班角色需配置具体的审批人才
脚本或者作业的功能。 核心优势 动态识别:OS合规性风险动态识别。 资源自动发现和纳管。 安全生产:执行运维操作时,自动分批、爆炸半径评估等。 自动预警:短信、邮件、企业微信等自动通知。 前提条件 执行自动化运维的主机需安装UniAgent。 创建补丁基线 通过Cloud Operations
执行记录 脚本工单 作业工单 补丁工单 资源操作工单 父主题: 任务管理
用拓扑大屏展示所选时间段内应用和子应用的告警数量,右侧详情页展示应用故障详情。 (可选)勾选“自动刷新”,自动刷新下拉列表选择刷新频率。 勾选“自动刷新”后,“结束时间”按照刷新频率自动刷新到系统当前时间。 (可选)若应用有子应用,单击子应用。 应用拓扑大屏展示该子应用下的所有组
用拓扑大屏展示所选时间段内应用和子应用的告警数量,右侧详情页展示应用故障详情。 (可选)勾选“自动刷新”,自动刷新下拉列表选择刷新频率。 勾选“自动刷新”后,“结束时间”按照刷新频率自动刷新到系统当前时间。 (可选)若应用有子应用,单击子应用。 应用拓扑大屏展示该子应用下的所有组
可选项“应急预案”、“脚本”、“作业”。 自动执行 勾选是否自动执行。自动化预案、脚本、作业支持自动执行。 勾选“自动执行”后,显示“参数映射”,系统根据上方的触发条件及设置自动执行。 参数值、Region ID、和目标实例填写格式为${},需要通过该表达式解析对应的值,详细请参考自动化执行参数示例说明。
执行自定义脚本 功能介绍 执行脚本 脚本入参、超时时间、执行用户、资源受限 脚本入参支持20个。 单次下发的机器支持200个。 单次批次内机器数量最大10个。 最大批次数量为20批。 脚本输出的日志总量只支持1MB。 URI POST /v1/job/scripts/{script_uuid}
在稳定区间内,开启自动回滚后故障注入将自动停止。 监控指标 请在下拉列表依次选择:目标资源、监控指标、下限值、上限值。 监控故障演练过程中各业务指标的数据,位于上下限区间表示业务正常,供用户评估是否需要停止演练。 自动回滚 请选择是否开启自动回滚。 故障注入自动回滚,并恢复到注入
华北-北京一 目标实例 在筛选框设置条件,选择筛选出的实例。 - 分批策略:可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。
脚本工单 操作场景 执行脚本后会生成一条脚本工单记录,记录脚本执行的结果。若您需要跟踪和记录脚本的执行对象及执行结果,可通过脚本工单功能查看。 操作步骤 登录COC。 在左侧导航栏选择“任务管理 > 执行记录”页面,选择“脚本工单”页签。 图1 选择脚本工单 选择一个状态为“异常