检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以确保在正式引流时无重大稳定性风险。 解决方案 混沌演练驱动主动运维:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、复盘改进4个维度,提供端到端混沌演练能力; 沉淀故障模式:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,内置300个+典型故障模式。
提交事件单解决方案 功能介绍 HandleCocIncident 处理事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num
问题定位出方案 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案,便于后续回溯。 定位出方案 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“定位出方案”。 设置“定位出方案”。
创建变更单 操作场景 应用涉及变更事项,可通过创建变更单记录变更的范围和变更方案,变更方案支持上传详细的变更方案或通过作业实现变更。 前提条件 1、需要先在应用管理中创建您的应用。 2、需要在排班管理创建变更审批人的排班。 注意事项 确认变更单内容,按实际变更需求申请变更单。 操作步骤
变更单审批后,按照变更方案在规定时间窗内实施变更,实施完成后需回填变更结果,并填写验证报告。 操作步骤 登录COC。 在左侧菜单栏选择“变更管理 > 变更中心”,进入“变更中心”页面,待处理的变更单列表,点变更标题或操作列“处理”,进入变更详情,点“变更开始”。若变更方案关联的作业,需先
问题待现网实施 操作场景 问题单定位方案如果判断需要进行现网变更,问题单会走到待现网实施阶段。此时需要在问题区域实施变更,变更完成后问题单才算解决。 前提条件 问题定位出解决方案详情页面,“是否需要变更”填写“需要变更”,问题单会走到待现网实施阶段。 现网实施 登录云运维中心。 在左侧导航栏选择“故障管理
成长地图 | 华为云 云运维中心 云运维中心(Cloud Operations Center)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供故障管理、批量运维、混沌演练等核心特性,实现在安全合规的前提下,云上运维效率提升。 产品介绍
支持添加和删除告警。 设置“解决方案”。 表5 解决方案参数说明 参数 说明 短期方案(故障如何恢复) 请填写故障的短期方案。 单击“添加文件”上传短期方案相关附件。 支持最多上传10个文件,支持文件类型:jpg、png、docx、txt、pdf,上传文件不能超过10MB。 长期方案(如何避免再次发生)
如果用户需要将云服务平台上的云运维中心集成到第三方系统,用于二次开发,请使用API方式访问云运维中心,具体操作请参见《云运维中心API参考》。 控制台方式 其他相关操作,请使用管理控制台方式访问云运维中心。 如果用户已注册,可直接登录管理控制台,从主页选择“云运维中心”。如果未注册,请参见注册华为账号并开通华为云。
并进行后续处理,完成问题的闭环。 受理问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“受理”。 完成问题单受理,问题单状态为“定位出方案中”。 父主题: 问题管理
处理告警 操作场景 当汇聚告警生成后,用户可以通过云运维中心快速处理,执行响应方案,支持作业、脚本两种方式。 注意事项 只有责任人可以处理当前告警。 处理告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 当前告警”。 选择需要处理的告警,单击操作列“更多
操作场景 问题单处理完成后,需要问题创建人验证问题是否已解决,若未解决可不通过,问题处理人重新定位处理,已解决可直接闭环。 验证问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“验证”。 设置“验证”。
标准化流程:华为云标准故障处理流程服务化,通过WarRoom实现运维、研发等多兵种协同作战,响应预案提升故障处理效率。 运维知识库:基于历史故障和专家经验构筑运维知识库,实现已知故障快速恢复,未知故障沉淀经验。 图4 标准化故障管理 智能化混沌演练 全旅程混沌工程解决方案,快速评估应用潜在韧性风险,持续看护应用架构。
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
受理事件单 功能介绍 受理事件 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号,示
无需多平台间跳转,站内闭环,夯实一站式体验。 一体化解决方案 化零为整,原子化运维能力实现有机融合。 沉淀华为云运维专家经验,提供场景化运维解决方案。 安全生产、运维大脑、故障管理等优秀实践使能客户极简运维。 一朵云使用体验 构筑全场景资源管理驾驶舱,覆盖华为公有云、客户IDC等场景。 提供多视角数据
验证事件处理结果 功能介绍 验证事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号
COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。 镜像与武器版本支持声明 COC混沌演练目前已支持弹性云服务器(ECS)、裸金
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CT
的能力。通过作业管理,用户可以在目标实例执行定义好的特定操作步骤。作业管理支持最多100个版本。 公共作业 公共作业是由云运维中心提供几种常见运维场景的解决方案,作业详情所有用户可见,公共作业不支持用户的增加、修改和删除。 自定义作业 自定义作业是由用户自定义创建并管理,作业包含