检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
事件管理 事件管理主要是对应用的所有事件进行管理,包含事件的受理、驳回、转单、处理到闭环整个生命周期管理。事件来源包含流转规则产生的事件、通过告警创建的事件及人工创建的事件。 事件管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理 事件流程 创建事件 处理事件 事件历史记录
脚本描述:最大256个字符。 单个参数的参数名称 64个字符,只支持字母+数字+下划线。 单个参数的值最大1024个字符,正则表达式如下:^((?!.{2,})[a-zA-Z0-9_-/.*\x20?:",=+@\[{]}])*$。 审批人最多支持5人。 脚本输出的日志总量只支持1MB。 URI
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
集成管理 集成配置支持简单、快速集成现有或第三方等监控系统;将业务下所有分散的监控系统告警进行统一收口及管理。不同的监控系统通过各自独立的集成接入密钥实现对接集成。 监控系统接入后,配置流转规则后可将告警信息转事件或告警。 当前支持集成CES、AOM、Prometheus和自建监控系统。
单击“添加实例”。 图3 选择实例 选择需要进行扫描的ECS/CCE/BMS实例。 图4 选择需要扫描的ECS实例 图5 选择需要扫描的CCE实例 图6 选择需要扫描的BMS实例 设置分批策略。 分批策略: 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分
脚本参数个数最多20个。 脚本描述:最大256个字符。 单个参数的参数名称 64个字符,只支持字母+数字+下划线。 单个参数的值最大1024个字符,正则表达式如下:^((?!.{2,})[a-zA-Z0-9_-/.\x20?:",=+@[{]}])$。 修改的脚本如果有审批人,在修改之后,需要再次选择审批人,查询审批
应用管理 应用管理,即为管理应用与云资源的关系,并为后续资源的监控、自动化运维等,提供统一、及时的资源环境管理服务。 创建应用 修改应用 删除应用 编辑应用拓扑 创建组件 修改组件 删除组件 创建分组 修改分组 删除分组 手动关联资源 智能关联资源 转移资源 解除关联资源 执行UniAgent操作
执行内容 该原子动作可以用来执行特定的命令。 操作步骤 登录COC。 在左侧菜单栏选择“自动化运维”,在“日常运维”模块单击“作业管理”,进入“作业管理”页面。 图1 作业管理页面 选择“自定义作业”页签,单击“创建作业”,进入“创建作业”页面。 图2 单击创建作业 填写作业基本
我的凭证页面-账号名 执行区域:执行的目标对象所在的区域 委托名称:IAM中委托对象的名称 图8 IAM页面-委托-获取本次执行的委托的名称 项目ID:IAM中的项目概念,执行的目标对象所在的项目的ID 图9 IAM页面-项目-本次执行的对象的项目-查看 图10 获取对象项目的ID
概述 流转规则将所有接收的集成原始告警进行去重操作,支持每个流转规则配置事件时默认分配对象&通知策略,从而实现更准确的通知。 父主题: 流转规则
自动分批:用户选择的待执行机器,会根据默认规则,分成多批。 手动分批:用户可以根据自身需要,将待执行的机器,分成若干批,控制机器所在的批次。 不分批:用户所有待执行的机器会全部在同一批次。 图5 选择分批策略 设置“熔断策略”。 熔断策略:用户可以设置执行的成功率,当执行失败的机器数量到
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
板,查看对应的SLA模板。 单击列表数据的“工单ID”列对应的“工单ID”或“操作”列对应的“查看详情”,查看SLA记录详情。 图2 查询SLA记录详情 SLA记录详情里的“SLA信息”表展示了工单的“SLA状态”与创建SLA模板时设置的SLA规则强相关,当工单的状态类型持续时间
创建人提交问题后,若问题处理人认为当前问题级别不合理,可对问题单进行升降级操作。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“升降级”,页面会显示问题挂起弹窗页面,并填写挂起信息。 图1
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“挂起”,页面会显示问题挂起弹窗页面,并填写挂起信息。 图1 问题单挂起 提交挂起后创建人点击问题单名称进入问题详情页面,单击页面右上角的“挂起审核”,填写审核
在左侧菜单栏选择“基础配置 > SLO管理”,进入“SLO管理”页面。 图1 SLO列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据。搜索框后的图标依次支持:刷新列表数据、设置列表展示字段。 图2 筛选SLO 单击列表中的,查看详情。 图3 SLO详情
执行自定义脚本 功能介绍 执行脚本 脚本入参、超时时间、执行用户、资源受限 脚本入参支持20个。 单次下发的机器支持200个。 单次批次内机器数量最大10个。 最大批次数量为20批。 脚本输出的日志总量只支持1MB。 URI POST /v1/job/scripts/{script_uuid}
补丁工单 提供用户查看、操作补丁工单的能力。 前提条件 用户使用补丁管理,系统生成对应的工单。 操作场景 通过Cloud Operations Center查看补丁工单。 操作步骤 登录COC。 在左侧导航栏选择“任务管理 > 执行记录”页面,选择“补丁工单”页签。 用户可以通过
受理问题 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“受理”,受理后可对问题单进行分析定位。 父主题: 处理问题