检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
待验证 操作场景 问题单处理完成后,需求创单人验证问题是否已解决。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“验证”,跳转验证详情,填写信息后点击提交。 图1 问题单验证页面
验证事件 操作场景 事件单处理完成后,验证事件是否处理完成。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 事件管理”,选择“待处理的”页签,单击事件标题进入“事件详情”页面。 图1 进入页面详情 单击“验证关闭”。 图2 验证关闭事件 填写验证信息后,单击“确定。 图3
验证事件处理结果 功能介绍 验证事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号
P3 P4 P5 当触发类型为告警单,级别有 紧急 重要 次要 提示 当触发类型为待办任务,级别有 紧急 重要 次要 提示 当触发类型为问题单,级别有 致命 严重 一般 提示 选择应用 可以选择 部分应用 全部应用 单击SLA规则表格里的“编辑”,弹出SLA规则弹窗。 编辑弹窗中
登录云运维中心。 在左侧导航栏选择“韧性中心 > 应用韧性评估”。 单击操作列”评估”,开始应用韧性评估。 重新评估 登录云运维中心。 在左侧导航栏选择“韧性中心 > 应用韧性评估”。 单击操作列”重新评估”,重新开始应用韧性评估。 父主题: 应用韧性评估
受理事件单 功能介绍 受理事件 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号,示
事件创建:创建事件后需要发送通知。 事件驳回:事件被驳回后发送通知。 事件转发:事件转发后发送通知。 事件验证:事件解决后进入待验证状态时发送通知。 事件完成:事件已经处理并验证通过后发送通知。 事件验证未通过:事件进入待验证状态下,验证不通过时发送通知。 事件驳回后完成:事件被驳回后,事件被关闭后发送通知。 父主题:
HandleCocIncident 处理事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号
人员管理”页面,选择需要编辑的人员在对应行“操作”列单击“编辑”。 图2 编辑人员信息 图3 编辑详情 别名:为当前用户添加一个名称 手机号:用户使用的手机号码 邮箱:用户使用的邮箱号码 企业微信:用户企业微信群聊机器人的webhook地址 钉钉:用户钉钉群聊机器人的webhook地址
故障模式 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景
运维效率。 图1 COC产品介绍 统一资源管理 应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。 配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。
进入处理或转发页面 图2 改进单详情页 改进单验证 登录COC。 在左侧菜单栏选择“故障管理 > 改进管理”,选择“待处理的”页签,选择待验证状态的改进单,单击改进标题进入“改进单详情”页面。 图3 改进单列表 单击右上角的“验证”,填写验证结论。 图4 改进单验证 改进单历史记录 登录COC。
图23 单击“事件处理”按钮 填写事件处理信息后,单击“提交”。 图24 填写事件处理信息 单击“验证关闭”。 图25 单击“验证关闭”按钮 填写验证信息后,单击“确定”。 图26 填写验证信息
最小长度:1 最大长度:255 regionId 否 String 告警发生区域 最小长度:0 最大长度:255 applicationId 是 String 应用id 最小长度:1 最大长度:255 resourceName 否 String 资源名称 最小长度:0 最大长度:255
在“故障影响”模块,单击“新增影响应用”,弹出“新增影响应用”页面。 根据页面提示,设置新增的影响应用信息。 单击“确定”完成添加。 图1 新增影响应用 在主屏可以看到添加的应用,支持填写故障开始时间、恢复时间及故障描述。提交后该应用的状态会变为恢复状态。 受影响应用支持执行应急预案快速恢复
不分批:用户所有待执行的机器会全部在同一批次。 图9 选择分批策略 设置熔断策略。 熔断阈值:用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 图10 熔断策略 单击“提交”。 图11 单击提交后执行界面 确认执行信息,若无误则单击“确定”。
理”、“升降级”、“添加备注”、“启动warroom”等操作。 事件单被处理后,进入“已解决待验证”状态,已解决待验证状态下可进行“验证”操作,验证通过后事件单进入“已完成”状态,验证不通过后,重新进入“已受理”状态。 若需要增加事件单暂停功能,可参考基础配置-事件流程。 图1 事件流程图
WarRoomEnumeration object warroom 状态 impacted_application Array of impacted_application objects 影响应用 数组长度:0 - 1000 processing_duration Long 处理时长(分钟)
在流转规则列表上方,单击“新增规则”进入新增流转规则页面。 图1 新增流转规则 若两个流转规则中的信息较相似,可单击“操作”列“复制”,快速创建流转规则。 根据页面提示,输入规则名称、应用名称等基本信息。 图2 填写流转规则基本信息 在触发规则部分,选择触发类型,选择触发规则的数据源,根据相应的数据源的字段的键,配
深度诊断 coc:application:GetDiagnosisTaskDetails 查询应用资源诊断任务的权限。 aom:uniagentAgent:install; aom:uniagentAgent:uninstall; √ x x x coc:application:CreateDiagnosisTask