检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
约束与限制 云运维中心COC为全局服务,但在部分特殊区域(专属区域、HCSO等)暂不支持,如您有相关需求,请联系COC侧沟通处理。 在使用云运维中心COC时,您需注意以下使用限制,详见表1。 表1 云运维中心使用限制 功能模块 对象 使用限制 公共 补丁/脚本/作业/ECS操作 单个操作任务最多支持选择200台实例。
错误码 错误码 状态码 错误码 错误信息 描述 处理措施 400 COC.00040601 Exist script with same name: test1111_param. 存在相同名称的脚本 修改脚本名称 400 COC.00040701 Internal server
云服务器、对象存储、云数据库等)的监控指标信息,如ECS的CPU使用率、磁盘读/写带宽,对象存储的存储对象总数、TPS等。 资源监控 登录云运维中心。 进入COC“总览”后,可以查看CES监控的指标信息。 图1 CES监控信息 在云服务选择组件处可切换需要查看的云服务类型。 图2
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则
概述 云运维中心支持对弹性云服务器 ECS、云数据库 RDS、Flexus应用服务器L实例、裸金属服务器 BMS等多种资源进行批量操作,具体操作包含批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等场景。 支持场景 表1 资源运维支持的资源和场景 资源类型 批量开机 批量关机
运维概览 操作场景 通过云运维中心查询、跟踪运维待办事项(事件单/汇聚告警/待办),查询账号下已纳管的应用、资源等统计数据。 运维概览 登录云运维中心。 进入COC“总览”后,左上角可以查询到待处理事件、待处理告警、我的待办的统计数量,右侧可查看应用、资源等统计数据。 图1 运维事务跟踪
应急预案 操作场景 您可以对系统可能发生的故障建立对应的应急预案,在故障发生后可以参考应急预案进行故障紧急恢复。 创建应急预案 登录COC。 在左侧菜单栏选择“韧性中心 > 应急预案”页面,选择“自定义预案”页签。 图1 应急预案页面 单击“创建应急预案”,填写应急预案基本信息。
调用说明 云运维中心提供了REST(Representational State Transfer)风格API,支持您通过HTTPS请求调用。 父主题: 使用前必读
标准化故障管理 实践场景 某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。
概述 PRR: Production Readiness Review 生产就绪程度评估基线。 从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求,在服务产品开发前端构筑能力,进行相关需求规划、设计和开
WarRoom状态 操作场景 WarRoom启动后,在处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 >
故障信息 操作场景 WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 > WarRoom”,可以查看WarRoom列表信息。 单击WarRoom列表中Wa
移动应用管理 操作场景 移动应用管理用于管理事件启动Warroom时,创建企业微信Warroom作战室必要的企业微信配置信息,用户可通过移动应用管理页面管理企业微信的配置信息。 查看移动应用管理 登录COC。 在左侧导航树中选择“基础配置 > 移动应用管理”页面。当该租户已绑定企
通知管理 操作场景 通知管理为用户创建通知规则,通知规则包含事件通知、问题通知、变更通知和告警通知。 当产生事件单、问题单、告警单或有变更单时,通知规则会根据事件/问题/告警/变更信息和配置的通知规则进行信息匹配,解析出需要通知的人员、内容和发送通知的方式,进行消息通知,实现了自动通知的功能。
待办中心 概述 待办中心用于记录和跟踪日常待办事务,并提供提醒功能。 在COC待办中心,您可以创建待办任务给指定人员处理,设置截止时间,填写待办任务的推荐方案,创建待办后可通过短信、邮件等方式通知责任人。 除了上述功能外,创建待办任务时还支持设置标签和添加附件。 待办任务创建成功
进展通告 操作场景 进展通告在故障发生或处理过程将故障处理进展及时同步给相关人员,关注该故障的人可快速掌握故障进展。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 > WarRoom”,可以查看WarRoom列表信息。 单击WarRoom列表中WarRoom名称,进入对应的“WarRoom详情”页面。
变更管控 变更管控是对资源进行变更操作时,通过工单提权的方式,才能执行脚本、作业或查询账号密码等操作,确保人和所操作的对象和实际资源保持一致,防止权限过大,降低安全风险。 操作场景 通过变更管控,您可以根据具体的使用场景,配置是否开启工单提权,当前支持事件、Warroom和变更单提权。
修改脚本 功能介绍 修改作业脚本:自定义脚本 约束条件: 脚本名称:同一租户下,脚本名称不能重复,最大字符64个字符,支持中文+字母+数字+下划线。 脚本内容最大4096个字符。 脚本参数个数最多20个。 脚本描述:最大256个字符。 单个参数的参数名称 64个字符,只支持字母+数字+下划线。
集成管理 支持用户自主接入告警数据 功能介绍 支持租户将自开发的监控系统按照标准化集成至COC,集成后告警会按照标准格式上报至COC告警中心 URI POST /v1/event/huawei/custom/{integration_key} 表1 路径参数 参数 是否必选 参数类型
查看告警 操作场景 通过云运维中心查看汇聚告警发生时间、收敛数量、所属应用、告警等级等汇聚告警相关信息。 并可以通过搜索框查看符合搜素条件的汇聚告警相关信息。 操作步骤 登录COC。 在左侧菜单栏单击“故障管理 > 告警管理”,可以查看汇聚告警或原始告警列表信息。 在汇聚告警搜索