检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建流转规则 操作场景 用户通过流转规则可以实现事件、告警等规则的自定义配置。通过配置流转规则,将原始告警转成汇聚告警或事件。 前提条件 配置流转规则前,您需要确保集成管理配置流转规则的监控源已成功接入集成。 创建规则 登录云运维中心。 在左侧导航栏选择“故障管理 > 流转规则”。
展示脚本工单基本信息 功能介绍 查询执行:基本信息 执行类型、执行名称、创建人、创建时间、结束时间、执行状态、标签(脚本id,脚本名,执行脚本参数,执行用户,超时时长、成功率阈值) 不同的任务类型消费标签中的不同key URI GET /v1/job/script/orders/{execute_uuid}
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。
故障模式 操作场景 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备
启动WarRoom 操作场景 事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。 启动WarRoom 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
重新提交问题 操作场景 问题单被驳回后,问题提单人再次确认该问题需要提交,可以修改问题单内容后重新提交。 重新提交 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“修改”。 设置“修改”。 表1
改进管理 操作场景 事件、Warrroom、混沌演练、PRR评审创建改进单进行受理,并在期望时间内完成改进任务,处理改进单过程若发现责任人不是本人支持转发责任人,改进项完成后需验收人验收通过才能闭环。 前提条件 需要通过事件、Warrroom、混沌演练、PRR评审创建改进单。 处理改进单
执行自定义脚本 功能介绍 执行脚本 脚本入参、超时时间、执行用户、资源受限 脚本入参支持20个。 单次下发的机器支持200个。 单次批次内机器数量最大10个。 最大批次数量为20批。 脚本输出的日志总量只支持1MB。 URI POST /v1/job/scripts/{script_uuid}
创建问题 操作场景 在使用软件产品过程中,发现产品功能缺陷、性能差等问题,您可以通过创建问题单进行跟踪。 问题管理支持设置通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理,通知类型需要选择“问题通知”。 前提条件 需要先在应用管理中创建您的应用。 创建问题 登录云运维中心。
租户委托查询租户的资源信息 功能介绍 租户委托查询租户的资源信息 URI GET /v1/resources 表1 Query参数 参数 是否必选 参数类型 描述 resource_id_list 否 Array 资源id列表 provider 是 String 云服务名称 type
问题定位出方案 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案,便于后续回溯。 定位出方案 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“定位出方案”。 设置“定位出方案”。
事件创建改进单 操作场景 事件单受理过程发现该故障有产品、运维的改进事项,可创建改进单进行跟进处理。 前提条件 事件受理后才能创建改进单。 创建改进单 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“
通知管理 操作场景 通知管理主要是提供变更、事件、问题等消息通知模板,满足不同阶段和场景的通知诉求。同时支持按需订阅通知,防止信息多,无法获取重要信息。 当产生事件单、问题单、告警单或有变更单时,通知规则会根据事件/问题/告警/变更信息和配置的通知规则进行信息匹配,解析出需要通知
权限管理 如果您需要对华为云上购买的资源,为企业中的员工设置不同的访问权限,以达到不同员工之间的权限隔离,您可以使用统一身份认证服务(Identity and Access Management,简称IAM)进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能,可
手动关联资源 操作场景 为分组创建对应环境后,即可为环境关联相关资源实例,后续可通过应用监控功能实时监控资源的使用情况。 手动关联资源 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,选择需要关联资源的应用,单击“关联资源”。
展示实例状态统计信息 功能介绍 查询:实例状态统计信息。 URI GET /v1/job/script/orders/{execute_uuid}/statistics 表1 路径参数 参数 是否必选 参数类型 描述 execute_uuid 是 String 脚本工单的执行Id
重新开启事件 操作场景 事件单被驳回后,事件提单人再次确认该故障需要提交,可以修改事件单内容后重新提交。 重新开启事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“重新开启”。 设置“修改事件单”。
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对
演练规划 操作场景 您可以通过演练规划对故障模式进行排期,创建演练规划可以指定执行人和计划演练时间,执行人通过接单来创建演练任务,演练任务关联故障模式和区域。 注意事项 演练规划所属的企业项目无需指定,和其关联的故障模式的企业项目保持一致。 创建演练规划 登录云运维中心。 在左侧导航栏选择“韧性中心
执行命令 操作场景 云运维中心提供了统一操作ECS实例的功能。通过批量ECS执行命令功能,您可以在不登录ECS的情况下,发送脚本命令至单台或多台ECS,快速完成对ECS的日常维护。 注意事项 所选实例处于运行中状态,才能执行此操作。 所选实例UniAgent状态为运行中,才能执行