检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
约束与限制 更详细的限制请参见具体API的说明。 父主题: 使用前必读
基本概念 账号 用户注册时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的
事件管理 创建事件单 受理事件单 提交事件单解决方案 验证事件处理结果 查询事件单详情 事件相关枚举信息 父主题: 故障管理
变更管理常见问题 常规变更&紧急变更的区别? 变更级别的定义?
演练任务 操作场景 管理混沌演练任务,查看演练记录。 创建演练任务 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签。 单击“创建演练任务”,进入创建演练任务页面,也可以通过演练规划接单功能进入创建演练任务页面,具体步骤可以参考演练规划章节。 图1
运维态势感知 云运维中心提供运维态势感知的能力,包含变更、事件、告警、安全合规、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。 预置接
集成管理 本文介绍如何集成监控源。 操作场景 每个监控源的集成配置都有独立的集成接入步骤,需要单独接入,各监控源的详细步骤可查看集成接入中各监控集成说明。 操作步骤 该步骤主要介绍华为云监控系统、开源监控系统的接入步骤 登录COC。 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”配置页面。
应用管理 应用管理,即为管理应用与云资源的关系,并为后续资源的监控、自动化运维等,提供统一、及时的资源环境管理服务。 创建应用 修改应用 删除应用 编辑应用拓扑 创建组件 修改组件 删除组件 创建分组 修改分组 删除分组 手动关联资源 智能关联资源 转移资源 解除关联资源 执行UniAgent操作
批量BMS操作 BMS操作为用户提供了管理BMS实例的能力,支持进行批量开机、关机、重启、重装操作系统等操作。 批量开机 批量关机 批量重启 批量重装操作系统 父主题: 资源运维
创建事件 操作场景 通过Cloud Operations Center创建一个事件单。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 事件管理”,单击“创建事件单”,进入“创建事件单”页面。
改进管理 前提条件 需要通过事件/Warrroom/演练/PRR创建改进单。 处理改进单 登录COC。 在左侧菜单栏选择“故障管理 > 改进管理”,选择“待处理的”页签,单击改进标题进入“改进单详情”页面。 图1 改进列表 单击右上角的“处理”或“转发” ,进入处理或转发页面 图2
问题流程 问题被创建后状态为“未受理”,未受理状态可对问题单受理、驳回或转发责任人。 问题受理后状态为“定位出方案中”,定位出方案中状态可对问题单填写问题定位结果信息、转发责任人、升降级和挂起。 问题单挂起后需要创建单人审核,审批通过后状态为“挂起”,挂起后问题单可手动解除挂起或到达设定的解除挂起时间自动解除挂起。
创建问题 操作场景 通过Cloud Operations Center创建一个问题单。 前提条件 需要先在应用管理中创建您的应用。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入问题列表页面。单击右上角的“创建问题”,进入创建问题页面。 图1 问题列表 填写创建问题基本信息,点击“提交”。
故障模式 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景
演练报告 创建演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 图1 演练任务列表 找到需要查看的演练任务,单击“操作”列“演练记录”,进入“演练记录”列表。在演练记录列表“操作”列,单击
WarRoom 为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。在Warroom页面可以添加与会成员、发送故障进展、添加影响应用等操作。 前提条件 该应用下有正在处理的事件单,在事件处理页面启动WarRoom。 WarRoom状态 故障信息 影响应用管理
PRR评审 概述 PRR模板管理 PRR评审管理 父主题: 韧性中心
待办中心 概述 待办中心主要实现功能:客户华为云主账号(租户主SRE)直接创建任务给下属的某些IAM账号(租户子SRE)去处理(如一个公司下有不同部门,每个部门分别有一个IAM账号)。 新增待办 登录COC。 在左侧导航栏选择“任务管理 > 待办中心”页面,进入待办中心列表界面。
通知管理 通知管理为用户创建通知规则,通知规则包含事件通知、变更通知和问题通知。 当产生事件单、问题单或有变更单时,通知规则会根据事件/问题/变更信息和配置的通知规则进行信息匹配,解析出需要通知的人员、内容和发送通知的渠道,进行发送通知信息,实现了自动通知的功能。 事件和变更的通
SLO管理 SLO(服务等级目标,Service Level Object),SLO管理目前对接Warroom、故障、告警等功能,自动化地完成SLO的计算,为SLO看板大屏提供数据。 查看SLO SLO指标配置 SLO中断记录 父主题: 基础配置