检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OS诊断 操作场景 OS诊断是基于华为云积累的大量知识经验和特有的检测算法,通过采集少量GuestOS数据,帮您快速了解服务器整体运行状况并准确提供异常问题排查定位方法。 注意事项 OS诊断目标实例UniAgent状态需要为运行中,UniAgent相关操作请参考配置UniAgent
修改故障信息 操作场景 WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。 在WarRoom启动、故障定界和恢复、故障已恢复过程都可以修改故障信息。 修改故障信息 登录云运维中心。 在左侧导航栏选择“故障管理
处理告警 操作场景 当汇聚告警生成后,用户可以通过云运维中心快速处理,执行响应方案,支持作业、脚本两种方式。 注意事项 只有责任人可以处理当前告警。 处理告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 当前告警”。 选择需要处理的告警,单击操作列
配置UniAgent 操作场景 UniAgent的全称是统一数据采集Agent,主要是作为云服务运维系统的底座, 提供中间件指标采集、自定义指标采集能力和脚本下发执行通道。本章介绍UniAgent的安装、重装、升级、卸载和状态同步操作,安装完成后您可以通过UniAgent对资源执行自动化运维
查询WarRoom信息 功能介绍 查询warroom信息 URI POST /v1/external/warrooms/list 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 limit 否 Long limit 最小值:0 最大值:1000 缺省值:0 offset
创建排班 使用场景 事件、变更等场景需获取排班中的人员作为责任人,可通过创建排班场景及角色进行人员管理。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 排班管理”页面,单击右上角的“创建排班”。 图1 排班管理页面 进入“创建排班”页面,可以填写排班场景信息,并添加排班角色后单击
演练报告 操作场景 演练报告包含创建、编辑、改进事项以及故障记录的查看,以便用户全面地记录和管理演练活动及其结果。 创建演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 图1 演练任务列表
重新提交问题 操作场景 问题单被驳回后,问题提单人再次确认该问题需要提交,可以编辑问题单内容后重新提交。 重新提交 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“修改”。 设置“修改”。 表1
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级
查看历史告警 操作场景 历史告警显示的是被清除的汇聚告警。当汇聚告警被清除后,您可以在历史告警页签中继续查看汇聚告警的相关信息和处理记录。 注意事项 告警数据留存期为31天,逾期将自动清除。 查看历史告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警
演练任务 操作场景 演练任务功能允许用户通过模拟软件或硬件故障来测试系统的恢复能力。演练任务操作包括管理混沌演练任务和查看演练记录,以及创建演练任务的流程。演练任务的设置包括基础信息、攻击任务组的添加、攻击任务的选择、攻击场景的选择等。此外,演练任务还涉及监控任务配置,以及演练后的复盘改进
故障模式 操作场景 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”
验证事件 操作场景 事件单处理完成后,通过故障是否恢复或达到预计效果,在验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,
身份认证与访问控制 身份认证 用户访问COC的方式包括:COC控制台、API、SDK,无论哪种访问方式,其本质都是通过COC提供的REST风格的API接口进行请求。 COC的接口支持认证请求,经过认证的请求需要包含一个签名值,该签名值以请求者的访问密钥(AK/SK)作为加密因子,结合请求体携带的特定信息计算而成
展示实例状态统计信息 功能介绍 查询:实例状态统计信息。 URI GET /v1/job/script/orders/{execute_uuid}/statistics 表1 路径参数 参数 是否必选 参数类型 描述 execute_uuid 是 String 脚本工单的执行Id,
受理事件单 功能介绍 受理事件 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号,示例
概述 作业是操作步骤(原子动作)的集合,一个作业可以包含一个或多个操作,例如重启ECS、执行脚本等。 作业管理提供对公共作业、自定义作业的创建、修改、克隆、删除等管理的能力以及在目标实例上执行作业的能力。通过作业管理,用户可以在目标实例执行定义好的特定操作步骤。作业管理支持最多100
参数详情 操作场景 若想查看参数的详情及版本历史,查看敏感参数值和解密数据,请按如下操作进行。 查看参数详情 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“参数中心”。 选择需要查看的参数,单击参数名称。 若参数类型为加密文本:单击参数值旁边查看敏感参数值
概述 定时运维页面展示所有定时任务详情和执行记录。您可以在这里创建定时任务,也可以管理已创建的定时任务。创建定时任务后,系统按确定时间或周期定时触发脚本执行、作业管理等操作。 定时运维包含如下几项核心要素: 定时设置:单次执行,周期执行(设置简单周期或Cron表达式)。 任务类型: