检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
述,单击“保存”,完成创建应急预案。 图8 文档预案步骤 查看自定义预案详情 登录COC。 在左侧菜单栏选择“韧性中心 > 应急预案”页面,选择“自定义预案”页签。 单击第一列“应急预案”名称,查看应急预案。 图9 查看应急预案 编辑应急预案 登录COC。 在左侧菜单栏选择“韧性中心
事件类别 操作场景 系统提供的事件类别名称和业务流程定义的事件类别不符合,支持用户自定义事件类别,修改后可在创建事件页面查看最新的事件类别。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 流程管理”页面,单击页面事件流程>事件类别,当前页面显示的为系统预置的事件类别,不支持编辑和删除。
变更管理中系统默认的变更场景字段和实际业务使用过程中有差异,支持修改变更场景枚举值。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 流程管理”页面,单击页面变更<br>场景,当前页面显示的为系统预置的问题类型,不支持编辑和删除。 图1 变更场景 若不使用系统预置的变更场
代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升
控任务,“监控详情”中即可查看攻击目标的实时监控数据。 图8 演练监控数据 单击演练任务中的“详情”,可查看任务的攻击详情。 图9 任务攻击详情 “攻击详情”模块中,可查看当前任务的对应的应用下面实例攻击情况。 图10 应用攻击详情 查看演练记录 查看演练任务的演练记录。如果当前
t。 OS诊断插件仅支持部分操作系统,详情请见下表: 表1 OS诊断插件支持的操作系统 机器架构 操作系统(OS)类型 OS诊断插件(holmes-agent)是否支持 (Y:支持;N:不支持) X86 Huawei Cloud EulerOS Huawei Cloud EulerOS
BMS等多种资源进行批量操作,具体操作包含批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等场景。 支持场景 表1 资源运维支持的资源和场景 资源类型 批量开机 批量关机 批量重启 批量重装操作系统 批量切换操作系统 执行命令 弹性云服务器 ECS √ √ √ √ √ √ 云数据库
事件级别 操作场景 系统提供的事件级别名称描述和业务流程定义的事件级别和描述不符合,支持用户自定义事件级别和描述。修改后会在创建事件单页面显示最新定义的级别。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 流程管理”页面,单击页面事件流程>事件级别。 图1 事件级别 单
64bit 对于Linux x86_64服务器,支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本。 安装UniAgent 登录云运维中心。
告警管理功能提供告警数据的收集、纳管和处理。 本功能支持集成多个现有或第三方等监控系统(比如CES、AOM、Prometheus),并将业务下分散的告警信息进行统一收集,生成原始告警。用户可以在集成管理处启用或禁用已有告警源,或者接入第三方监控系统。 本功能还支持汇聚告警的管理。通过设置流转规则,用户可以
行复盘,避免故障再次发生。故障复盘信息包含有故障现象、故障影响、故障处理过程、根因分析、解决方案,同类故障、改进措施等15种以上分析项。 系统默认P1/P2/P3/P4级别的事件和启动了WarRoom所有级别的事件需进行复盘,该规则可在故障复盘规则中修改。 故障复盘 登录云运维中心。
运维概览 操作场景 通过云运维中心查询、跟踪运维待办事项(事件单/汇聚告警/待办),查询账号下已纳管的应用、资源等统计数据。 运维概览 登录云运维中心。 进入COC“总览”后,左上角可以查询到待处理事件、待处理告警、我的待办的统计数量,右侧可查看应用、资源等统计数据。 图1 运维事务跟踪
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则
概述 云运维中心的韧性中心提供了应急预案功能,允许用户为系统可能发生的故障建立对应的应急预案。这样,在故障发生后,用户可以参考这些预案进行紧急恢复。创建应急预案的流程包括登录 云运维中心,选择“韧性中心>应急预案”页面,并进行应急预案的自定义创建,包括填写基本信息、选择处理方式(如“脚本”或“作业”)
用户使用ECS操作、RDS操作、BMS操作、FlexusL操作等,系统生成对应的工单。 操作场景 在“资源运维 > 资源批量操作”中执行批量操作任务后,若您需要跟踪和记录任务的执行对象及执行结果,可以在“任务管理 > 执行记录 > 资源操作工单”页面查看。 操作步骤 登录COC。 在左侧导航栏选择“任务管理
资源运维中批量启动云服务器 切换弹性云服务器操作系统 ecs:cloudServers:changeOS 资源运维中批量切换云服务器的操作系统 重装弹性云服务器操作系统 ecs:cloudServers:rebuild 资源运维中批量重装云服务器的操作系统 获取云服务器信息 ecs:servers:get
集成管理 支持用户自主接入告警数据 功能介绍 支持租户将自开发的监控系统按照标准化集成至COC,集成后告警会按照标准格式上报至COC告警中心 URI POST /v1/event/huawei/custom/{integration_key} 表1 路径参数 参数 是否必选 参数类型
若出现实例不可选,请排查以下三种情况: 该实例UniAgent状态是否正常。 是否为Cloud Operations Center补丁管理支持操作系统。 该实例是否处于关机状态。 创建扫描任务 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“补丁管理”。
展示工单列表 功能介绍 查询作业工单列表,分页查询 过滤:创建时间开始,创建时间结束、创建人 返回:id、脚本名称、区域、创建人、创建时间、结束时间、总耗时、状态 URI GET /v1/job/script/orders 表1 Query参数 参数 是否必选 参数类型 描述 limit
原始告警 操作场景 原始告警是由多个现有或第三方等监控系统(比如CES、AOM、Prometheus),将业务下分散的告警信息进行统一收集生成的告警。原始告警列表展示告警源名称、告警状态、告警级别、告警来源、关联应用等信息。 通过流转规则可以将一条或多条原始告警汇聚成单条汇聚告警,一条原始告警可以触发多个流转规则。