检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
演练任务 操作场景 演练任务功能允许用户通过模拟软件或硬件故障来测试系统的恢复能力。演练任务操作包括管理混沌演练任务和查看演练记录,以及创建演练任务的流程。演练任务的设置包括基础信息、攻击任务组的添加、攻击任务的选择、攻击场景的选择等。此外,演练任务还涉及监控任务配置,以及演练后
创建问题 操作场景 在使用软件产品过程中,发现产品功能缺陷、性能差等问题,您可以通过创建问题单进行跟踪。 问题管理支持设置通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理,通知类型需要选择“问题通知”。 前提条件 需要先在应用管理中创建您的应用。 创建问题 登录云运维中心。
应用拓扑 操作场景 应用拓扑以图形的形式呈现,其中节点表示应用层次结构和资源,连线表示之间的关系。为您更加直观地展示应用层次结构和资源之间的相互关系,便于资源的使用、监控和管理。 注意事项 编辑拓扑仅支持编辑组件之间的连线关系。 编辑拓扑不影响应用和组件的层级和功能。 查看和编辑拓扑
应用诊断 操作场景 当事件创建后,您可以通过应用诊断(全链路故障诊断)功能快速定位故障根因。用户通过应用诊断可以查看应用层、组件层、资源层的关系拓扑,基于资源和应用告警的异常数据,并提供资源核心指标查看与实例诊断能力。 前提条件 已完成在CMDB的应用创建和资源关联,并完成应用拓扑编辑。
原始告警 操作场景 原始告警是由多个现有或第三方等监控系统(比如CES、AOM、Prometheus),将业务下分散的告警信息进行统一收集生成的告警。原始告警列表展示告警源名称、告警状态、告警级别、告警来源、关联应用等信息。 通过流转规则可以将一条或多条原始告警汇聚成单条汇聚告警,一条原始告警可以触发多个流转规则。
查看资源拓扑 操作场景 资源拓扑以图形的形式呈现,其中节点表示各种资源,连线表示资源之间的关系。为您更加直观地展示资源之间的相互关系,便于资源的使用、监控和管理。 注意事项 支持查看华为云资源的拓扑关系。 支持查看弹性云服务器(ECS)、MapReduce服务 (MRS)、裸金属服务器
创建流转规则 操作场景 用户通过流转规则可以实现事件、告警等规则的自定义配置。通过配置流转规则,将原始告警转成汇聚告警或事件。 前提条件 配置流转规则前,您需要确保集成管理配置流转规则的监控源已成功接入集成。 创建规则 登录云运维中心。 在左侧导航栏选择“故障管理 > 流转规则”。
概述 应用韧性评估用于衡量应用在面对各种干扰和压力(如硬件故障、网络波动、流量峰值、安全攻击等)时,能够维持正常功能和性能的评估方式。韧性的概念不仅仅局限于恢复能力,还包括预防问题、快速检测问题以及有效应对问题的能力。 COC应用韧性评估基于华为最佳实践经验,定义了300+的评估
产品功能 云运维中心COC提供的常用功能特性参见表1 云运维中心COC功能概览。 表1 云运维中心COC功能概览 功能名称 功能描述 发布区域 总览 COC全局总览页面,包含资源总览、资源监控、应用监控、安全概览、快捷入口等多个板块。用户可以在总览页面便捷查看、处理工作项,降低运维复杂度,改善运维体验。
运维态势感知 前提条件 如果您是在单账号场景下使用运维态势感知,您可跳过此部分内容,查看操作步骤。 如果您是在跨账号场景下使用运维态势感知,需要满足以下前提条件: 1、当前账号已经开启跨账号管理,并且是组织/委托管理员账号。 2、组织成员账号已开通云运维中心COC服务。 操作场景
快速配置中心 操作场景 COC快速配置中心面向华为云全局云服务提供场景化的集中配置入口,通过最佳实践的极简配置实现多区域、多账号、定时的自动化操作,为后续运维降低操作门槛。 您可以在快速配置中心完成云运维中心配置和云服务配置: 云运维中心配置:涵盖资源应用管理、自动化运维、故障管
生成事件的流程是什么? 生成事件有三种方式:手动创建事件、告警转事件和通过流转规则自动生成事件,具体介绍如下。 手动创建事件 在故障管理>事件管理创建事件单,具体操作详见创建事件单。 告警转事件 在故障管理>事件管理创建事件单,具体操作详见告警转事件。 流转规则自动生成事件 流转规则自动生成事件,需要做以下步骤:
故障复盘 操作场景 事件验证通过后,会根据故障复盘规则自动生成故障报告,在故障报告基础上对本次故障进行复盘,避免故障再次发生。故障复盘信息包含有故障现象、故障影响、故障处理过程、根因分析、解决方案,同类故障、改进措施等15种以上分析项。 系统默认P1/P2/P3/P4级别的事件和
标准化故障管理 实践场景 某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。
快捷混沌演练 操作场景 云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。云运维中心的混沌演练功能支持用户配置演练模板、攻击模板,基于模板对物理机、虚拟机或CCE容器等进行故障演练。支持故障模式
修改分组 操作场景 分组创建后,若想对分组的参数进行修改,请按如下操作进行。 修改分组 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,展开应用,选择分组,单击。 设置“编辑分组”。 表1 修改分组参数说明 参数 说明 示例
升降级 操作场景 如果事件单在处理过程发现事件等级与实际情况不符,需修改级别,可以通过事件升降级操作进行。注意:事件只有在受理后才能修改级别。事件级别降级可以增加审批流程,详细操作请参考事件审批,设置后满足条件的事件降级申请需要审批人审核通过或驳回后才可以完成事件降级流程。 升降级
创建分组 操作场景 创建组件后,若想在组件下创建分组,请按如下操作进行。 创建分组 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,展开应用,选择组件,单击。 设置“创建分组”。 表1 创建分组参数说明 参数 说明 示例
重新开启事件 操作场景 事件单被驳回后,事件提单人再次确认该故障需要提交,可以编辑事件单内容后重新提交。 重新开启事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“重新开启”。 设置“修改事件单”。
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。