检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
概述 SLO(服务级别目标,Service Level Object)为业界通用指标,SLO实际值=1-(应用不可用时长/应用总时长)*100%,通常代表服务/应用的质量水平。 在云运维中心COC中,WarRoom、告警、事件(“业务是否中断”属性为“是”的事件单)等运维工单,会
可选参数。在下拉列表选择WarRoom区域。可以选择多个区域。 企业项目 在下拉列表中选择企业项目。 应用 在下拉列表选择影响应用。可以选择多个应用。 创建群组方式 可选项“企业微信”、“钉钉”、“飞书”。 请先在移动应用管理配置应用通知方式,选择后WarRoom拉起会将排班人员和参与者拉入对应的群组中。 排班
最小长度:0 最大长度:255 数组长度:0 - 1 current_cloud_service 是 Array of strings 归属应用ID,当前只支持1个 最小长度:0 最大长度:255 数组长度:0 - 1 incident_level 是 String 事件级别 参考:枚举
若分析还有其他应用受影响,使用新增影响应用增加。 通过应用诊断可以快速定位故障根因,使用执行预案能够快捷处理故障。处理完成后需要修改应用状态为“已恢复”。 故障已恢复:检查故障处理结果和应用状态。 注意:将所有应用状态修改为已恢复状态才能走到故障已恢复阶段。 使用应用诊断检查故障恢
自定义流转规则的名称。 区域 可选参数,在下拉列表选择区域。 不选择区域展示“默认”,表示不涉及区域。 企业项目 在下拉列表选择企业项目。 应用 在下拉列表选择应用。 设置“触发规则”。 表2 触发规则参数说明 参数 说明 触发类型 可选项“事件”、“告警”。 事件:生成事件单,需要值班人员尽快处理,持续跟进直至闭环。
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的
实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性
单击“关联单号”,选择对应工单。 发生时间 可选参数。请填写问题发生的时间。 问题应用 在下拉列表选择涉及问题的应用。 问题级别 可选项“紧急”、“严重”、“一般”、“提示”。 紧急: 造成系统或应用程序崩溃、死机、系统挂起,或造成数据丢失,主要功能完全丧失,导致本模块或相关模块异常等。
事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。 创建事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 单击右上方“创建事件单”。
单/汇聚告警/待办),查询账号下已纳管的应用、资源等统计数据。 运维概览 登录云运维中心。 进入COC“总览”后,左上角可以查询到待处理事件、待处理告警、我的待办的统计数量,右侧可查看应用、资源等统计数据。 图1 运维事务跟踪 图2 应用资源统计数据 单击“待处理事件”、“待处理
页面默认显示本月审批后的变更分布,单击变更标题可进入变更单详情页面。 支持按照变更应用、变更级别、状态和变更标题筛选。 若需查看某天的变更信息可点中对应的日期。 变更日历显示的进入审批状态后的变更单。 变更日历默认显示变更应用和变更标题,不同的颜色代表不同的变更单状态。 变更单排序规则: 优先以跨天数排列,跨天越多越靠前。
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
中的人员。 应用排班+固定班次 使用场景:适用不同应用,排班人员是全天固定的。 前置条件:“应用排班”您需要先在应用管理中创建您的应用。 登录云运维中心。 在左侧导航栏选择“基础配置 > 排班管理”。 在上方下拉列表选择已创建的排班场景(排班场景名称后面会显示“应用排班+固定班次”)。
”。 脚本内容:录入脚本内容。 脚本内容首行自动添加的解释器,例如#!/usr/bin/python需要用户的机器让有python的软链接,若缺乏软链接,需要用户自行修改解释器,适配为机器可执行的解释器。 校验高危命令:可对脚本内容进行高危检测。 校验范围:检测涉及的高危命令范围
概述 问题管理是在使用软件产品过程中,发现产品功能缺陷、性能差等问题,记录和解决应用中存在的根本原因问题。其主要目标是降低产品/服务现网故障数量,并提高服务的整体质量促进产品或应用质量的不断完善,防止问题的再次发生。问题管理包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”。
源、主机进程、主机网络、自定义故障和资源运维。通过集成武器模块和功能,用户可以更准确地模拟真实环境故障,及早发现系统可用性等问题,持续提升应用韧性。 攻击场景说明 表1 攻击场景说明 攻击目标来源 攻击场景 说明 弹性云服务器 (ECS) 体验类 小试牛刀 不产生任何故障,帮助您了解混沌演练的执行流程
企业项目ID,当前只支持1个 最小长度:0 最大长度:255 数组长度:0 - 1 current_cloud_service Array of strings 归属应用ID,当前只支持1个 最小长度:0 最大长度:255 数组长度:0 - 1 incident_level String 事件级别 参考:枚举
(可选)单击“创建改进事项”,设置“创建改进单”。 表2 创建改进单参数说明 参数 说明 改进单名称 自定义改进单的名称。 所属应用 在下拉列表选择改进单涉及的应用。 改进类型 在下拉列表选择改进类型。 改进责任人 在下拉列表选择责任用户。 改进验收人 在下拉列表选择验收用户。 期望完成时间
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理