检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
作业管理页面 选择“自定义作业”页签,单击“创建作业”,进入“创建作业”页面。 图2 单击创建作业 填写作业基本信息,包含作业名称,企业项目,描述和标签。可按照标签管理中的步骤创建标签,填写完成后单击“下一步”。 图3 填写作业基本信息 选择作业模板,如果没有合适的模板,选择“自定义”,单击“下一步”。
配置完成后在事件处理页面进行事件降级需要审批,同时支持事件暂停。 图3 事件处理页面 1.事件降级和暂停审批流程配置生效后创建的事件单流程才会生效,配置流程之前不会生效。 2.事件在已受理状态可进行升降级和暂停操作。 3.事件闭环之前需要将升降级和暂停的电子流闭环 4.事件升级无需审批 父主题: 事件流程
流程管理”页面,单击页面问题流程>问题审批,可配置问题降级和问题挂起的审批流程。系统默认问题降级和挂起需要创单人审批 图1 问题审批 单击“新建问题审批”配置问题降级或问题挂起的流程,选择问题流程、问题级别和审批配置。 图2 新建问题审批流程 配置完成后在问题处理页面进行问题单降级和问题单挂起。 图3 问题处理页面
支持哪些攻击场景? 支持对华为云ECS实例、RDS实例、CCE集群和Pod等多个云服务的常见故障场景的模拟,支持对多个故障场景的自由编排和组合。 父主题: 韧性中心常见问题
单击“处理”输入处理参数信息,单击“提交”。 图2 处理告警信息 若选择脚本,对应参数说明,参考执行自定义脚本和执行公共脚本。 若选择作业,对应参数说明,参考执行自定义作业和执行公共作业。 父主题: 汇聚告警
某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的“排雷”和“验收”,以确保在正式引流时无重大稳定性风险。
演练规划 操作场景 创建演练规划时您可以指定执行人和计划演练时间,执行人通过接单来创建演练任务,演练任务关联故障模式和区域。 注意事项 演练规划所属的企业项目无需指定,和其关联的故障模式的企业项目保持一致 操作步骤 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“风险管理
查询WarRoom信息 功能介绍 查询warroom信息 URI POST /v1/external/warrooms/list 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 limit 否 Long limit 最小值:0 最大值:1000 缺省值:0 offset
执行UniAgent操作 提供用户给对应机器资源执行UniAgent的安装、重装、升级和卸载操作。 操作场景 通过Cloud Operations Center给对应机器资源执行UniAgent的安装、重装、升级、卸载和状态同步操作。 注意事项 当前只有弹性云服务器(ECS)的实例支持UniAgent的操作。
补丁工单日志中出现all mirrors were tried异常如何处理? 一般由网络原因引发,确认机器网络是否能和机器上所配置的补丁源联通,或机器网络是否出现异常。 父主题: 补丁管理常见问题
填写创建问题基本信息,点击“提交”。 图2 创建问题页面 问题标题:必填,简要填写问题描述 问题描述:必填,具体描述问题现网和对现网的影响,支持上传附件 问题来源:非必填,填写问题来源,来源包含事件、告警、WarRoom和主动运维发现。若是处理事件发现的问题则选择事件。 问题发生时间:非必填,填写当前问题发生的时间
全链路故障诊断 操作场景 当事件创建后,您可以通过全链路故障诊断,快速定位故障根因。我们面向客户应用提供应用层、组件层、资源层的关系拓扑,实现基于资源和应用告警的异常染色,并提供资源核心指标查看与实例诊断能力。 前提条件 已完成在CMDB的应用创建和资源关联,并完成应用拓扑编辑。 确保已接入CES监控,请到集成管理进行配置。
若已有排班场景和排班角色,在“创建排班”页面中可以选择已有场景,并可查看某个场景下的角色。 图2 创建排班页面 场景名称:排班场景的名称。 排班方式:排班的方式,可选择“固定班次”和“轮班(周一 -- 周日)”。 排班维度:排班的影响范围,可选择“应用排班”和“全局排班”。 场景描述:排班场景的详细说明。
标签管理 提供用户为自定义作业和作业工单添加标签的能力。 操作场景 通过Cloud Operations Center为一个自定义作业或者作业工单添加标签。 创建标签 登录COC。 在左侧菜单栏选择“自动化运维”,在“日常运维”模块单击“作业管理”,进入“作业管理”页面。 在“作
升用户运维能力成熟度和云上运维效率。 图1 COC产品介绍 统一资源管理 应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。 配置管理:提供应用和资源视角的管理能力,
若在拉起Warroom的时候需要同时拉起群组(群组方式支持企业微信和钉钉),需要配置以下信息: (1)在移动应用管理中配置对应用。 (2)在人员管理中配置企业微信对应邮箱。 (3)若选择排班,需要先创建排班并给排班中添加排班人员,添加排班和参与者后,会在起会规则命中时拉入企业微信。 父主题: 处理事件
演练报告有哪些内容? 演练报告包括演练过程的基本信息、服务恢复能力评分和复盘改进措施,并且能够生成复盘改进工单,确保演练中发现的问题能够落实改进。 父主题: 韧性中心常见问题
添加排班人员 前提条件 设置排班人员前,您需要在人员管理中完善您的人员列表,并且需要创建完成排班场景和对应的排班角色。 操作场景 不同排班方式和排班维度添加排班人员会有所不同,具体介绍如下。 排班类型 固定班次 轮班(周一 -- 周日) 全局排班 全局排班+固定班次场景添加排班人员
云服务API:包含ECS相关操作原子、执行API和等待API调用结果。ECS操作详见:ECS操作。 控制:包含审批、暂停和睡眠。 自定义脚本:支持选择自定义脚本类型和执行命令。自定义脚本创建后,会自动注册一条自定义原子记录。 图12 选择操作类型 根据选择的操作类型,填写名称、操作描述等基本信息,参数信息和异常处理策略,填写完成后单击“完成”。
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则