检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看资源拓扑 操作场景 资源拓扑以图形的形式呈现,其中节点表示各种资源,连线表示资源之间的关系。为您更加直观地展示资源之间的相互关系,便于资源的使用、监控和管理。 注意事项 支持查看华为云资源的拓扑关系。 支持查看弹性云服务器(ECS)、MapReduce服务 (MRS)、裸金属服务器 (BMS)、云容器引擎
混沌演练是什么? 混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
变更管理主要为构建运维作业全生命周期的安全生产能力,降低变更风险,主要承载变更流程管理业务。包含变更日历、变更中心、变更配置、变更管控等能力。 变更日历:变更日历主要是根据日历视图展示手动创建变更单的数据,并根据不同状态查看变更分布。 变更中心:变更中心主要承载变更流程管理业务,以变更工单模式,从变更的申请、审批
用户能够实现操作系统补丁合规性扫描,操作系统补丁合规性修复功能。 补丁管理当前仅支持能够访问公网的机器,可通过绑定EIP或NAT网关的方式实现,请在功能使用前确认。 在执行补丁管理操作之前,请确认执行机器所在的区域为现支持的区域,操作系统为现补丁管理支持操作系统,机器上具备补丁
事件历史记录 操作场景 若需追溯事件处理阶段中某个节点做了什么操作,可以查看事件的历史记录,事件历史记录包含事件的整个处理过程。 事件历史记录 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 单击上方“全部事件单”。 选择需要查看的事件单,单击事件标题。 单击上方“事件历史”。
操作类型 说明 云服务API 启动ECS操作系统 可以对ECS实例执行单独或批量开机的操作。 重启ECS操作系统 可以对ECS实例执行单独或批量重启的操作。 切换ECS操作系统 可以对ECS实例执行单独或批量切换操作系统的操作。 关机ECS操作系统 可以对ECS实例执行单独或批量关机的操作。
进展通告 操作场景 进展通告在故障发生或处理过程将故障处理进展及时同步给相关人员,关注该故障的人可快速掌握故障进展。 进展通告 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 单击需要修改的WarRoom标题。 单击右侧“更新通告”。 设置“更新实时通报内容”。
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”。
转发问题 操作场景 问题单处理过程发现该问题属于其他运维专家处理,可转发问题单给对应的责任人。 转发问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“转发责任人”。 设置“转发责任人”。 表1
本章节为您介绍基于策略授权的授权方法,操作流程如 图1 给用户授予COC权限流程 所示。 前提条件 在授权操作前,请您了解可以添加的COC权限,并结合实际需求进行选择。COC支持的系统策略,请参见基于策略授权模型。若您需要对除COC之外的其它服务授权,IAM支持服务的所有权限请参见系统权限。 示例流程 图1 给用户授予COC权限流程
资源进行批量操作,具体操作包含批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等场景。 支持场景 表1 资源运维支持的资源和场景 资源类型 批量开机 批量关机 批量重启 批量重装操作系统 批量切换操作系统 执行命令 弹性云服务器(ECS) √ √ √ √ √ √ 云数据库(RDS)
验证问题 操作场景 问题单处理完成后,需要问题创建人验证问题是否已解决,若未解决可不通过,问题处理人重新定位处理,已解决可直接闭环。 验证问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“验证”。
补丁/脚本/作业/ECS操作 执行工单时,超时时间小于等于86400秒(即24小时)。 资源管理 安装UniAgent支持操作系统 目前支持的Linux操作系统版本有: EulerOS 2.2 64bit for Tenant 20210227 EulerOS 2.3 64bit EulerOS
事件单受理过程发现该故障有产品、运维的改进事项,可创建改进单进行跟进处理。 前提条件 事件受理后才能创建改进单。 创建改进单 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“ > 创建改进单”或“创建改进单”。
用户可以更准确地模拟真实环境故障,及早发现系统可用性等问题,持续提升应用韧性。 攻击场景说明 表1 攻击场景说明 攻击目标来源 攻击场景 说明 弹性云服务器 (ECS) 体验类 小试牛刀 不产生任何故障,帮助您了解混沌演练的执行流程 主机资源 CPU使用率加压 模拟CPU使用率飙升,支持故障紧急终止
公共SLA 操作场景 公共SLA由系统为客户预置,开箱即用,默认为禁用状态,用户可根据需要启用/禁用。 启用/禁用公共SLA 登录云运维中心。 在左侧导航栏选择“基础配置 > SLA管理”。 单击上方“公共SLA”。 选择需要启用/禁用的公共SLA,单击操作列“启用/禁用”。 单击“确定”。
U使用率加压的故障演练。 操作流程 操作步骤 说明 准备工作 注册华为账号并实名认证,开通云运维中心。 步骤一:同步资源 获取当前用户所属的所有Region下资源数据并同步至云运维中心。 步骤二:创建应用 管理应用与云资源的关系,并为后续资源的监控、自动化运维等,提供统一、及时的资源环境管理服务。
按钮进行配置。 图3 选择场景前往配置 云服务配置 快速配置中心目前已支持云监控服务(CES)跨区域配置告警规则。 登录云运维中心。 进入COC“总览”后,单击“快速配置中心 > 云服务配置 > 云监控服务 CES”可以进入CES告警配置页面。 图4 COC快速配置CES告警规则
变更配置 操作场景 若需创建变更单,需在变更配置中根据自身业务诉求,从变更类型、变更级别两个维度配置审批流程&审批人。 创建审批配置 登录云运维中心。 在左侧导航栏选择“变更管理 > 变更中心”。 单击右上方“创建审批配置”。 设置“创建审批配置”。 表1 创建审批配置参数说明 参数
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理