检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以确保在正式引流时无重大稳定性风险。 解决方案 混沌演练驱动主动运维:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、复盘改进4个维度,提供端到端混沌演练能力; 沉淀故障模式:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,内置300个+典型故障模式。
提交事件单解决方案 功能介绍 HandleCocIncident 处理事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num
问题定位出方案中 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“定位出方案”,跳转至填写问题原因及解决方案页面,填写信息后点击提交。
代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升
如果用户需要将云服务平台上的云运维中心集成到第三方系统,用于二次开发,请使用API方式访问云运维中心,具体操作请参见《云运维中心API参考》。 控制台方式 其他相关操作,请使用管理控制台方式访问云运维中心。 如果用户已注册,可直接登录管理控制台,从主页选择“云运维中心”。如果未注册,请参见注册华为账号并开通华为云。
实施及闭环变更单 操作场景 变更单审批后,按照变更方案在规定时间窗内实施变更。 操作步骤 登录COC。 在左侧菜单栏选择“变更管理 > 变更中心”,进入“变更中心”页面,待处理的变更单列表,点变更标题或操作类“处理”,进入变更详情,点“变更开始”。若变更方案关联的作业,<需先执行作业;若是变更指导书,按照变更指导书步骤实施变更。
批量切换操作系统 操作场景 通过Cloud Operations Center ECS操作批量切换操作系统功能进行ECS实例批量切换系统。 注意事项 如果存在未关机的实例,需要勾选“立即关机”。 如果不存在未关机的实例,则可直接提交执行。 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择
在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量FlexusL操作”模块中单击“切换操作系统”,进入“切换操作系统”页面。 在“切换操作系统”页面,选择“添加实例”。 图1 切换展示操作页 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量ECS操作”模块中单击“重装操作系统”,进入“重装操作系统”页面。 在“重装操作系统”页面,选择“添加实例”。 图1 重装展示操作页 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可
在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量FlexusL操作”模块中单击“重装操作系统”,进入“重装操作系统”页面。 在“重装操作系统”页面,选择“添加实例”。 图1 重装展示操作页 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
击“重装操作系统”,进入“重装操作系统”页面。 在“重装操作系统”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分
问题定位出解决方案详情页面,“是否需要变更”填写“需要变更”,问题单会走到待现网实施阶段。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“现网实施”,跳转现网实施页面,系统会默认带出涉
受理事件单 功能介绍 受理事件 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号,示
验证事件处理结果 功能介绍 验证事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号
问题流程 问题被创建后状态为“未受理”,未受理状态可对问题单受理、驳回或转发责任人。 问题受理后状态为“定位出方案中”,定位出方案中状态可对问题单填写问题定位结果信息、转发责任人、升降级和挂起。 问题单挂起后需要创建单人审核,审批通过后状态为“挂起”,挂起后问题单可手动解除挂起或到达设定的解除挂起时间自动解除挂起。
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
事件等级定义如下: P1:核心业务功能不可用,影响所有客户 P2:核心业务功能受损,影响部分客户,客户核心业务受影响 P3:非核心业务功能异常报错,影响部分客户业务 P4:非核心业务功能异常报障,业务时延增大、性能下降,客户体验下降 P5:非系统业务异常,属于客户咨询、请求类问题
概述 云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。 COC提供以下功能:
成长地图 | 华为云 云运维中心 云运维中心(Cloud Operations Center)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供故障管理、批量运维、混沌演练等核心特性,实现在安全合规的前提下,云上运维效率提升。 产品介绍
Warroom是什么? 为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。已受理的事件可以启动Warroom,具体参考启动WarRoom。 Warroom使用指导,请参考WarRoom管理。 父主题: 故障管理常见问题