检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
作业的添加请参考自动化运维。 脚本、作业和自动化预案支持故障自愈能力,选择脚本作业和自动化预案后会显示“自动执行”勾选项,勾选后带出脚本或作业对应的参数 图5 填写响应预案 参数值、Region ID、和目标实例填写格式为${},需要通过该表达式解析对应的值,自动化执行参数示例说明
批量操作常见问题 批量ECS资源切换镜像报错如何处理? 父主题: 资源运维常见问题
流程管理支持自定义事件、问题的级别和描述,同时支持配置事件或问题升降级,暂停的审批配置。按照公司事件和问题管理流程制定级别的类别。 事件流程 问题流程 变更场景 父主题: 基础配置
API概览 云运维中心为您提供资源运维和自动化运维相关接口 表1 接口说明 接口分类 说明 应用资源管理 包括租户委托首次同步租户RMS资源、查询租户的资源信息等 自动化运维 包括自定义脚本的创建、修改、删除、查询等 事件管理 包括事件的创建、处理、验证及查询 集成管理 主要为用户上报自监控系统的告警至COC
点击问题单名称进入问题详情页面,单击右上角“升降级”,页面会显示问题挂起弹窗页面,并填写挂起信息。 图1 问题升降级 当前升降级暂不需要审批,填写后问题单级别会变更。 父主题: 处理问题
生成事件有三种方式:手动创建事件、告警转事件和通过流转规则自动生成事件,具体介绍如下。 手动创建事件 在故障管理>事件管理创建事件单,具体操作详见创建事件单。 告警转事件 在故障管理>事件管理创建事件单,具体操作详见告警转事件。 流转规则自动生成事件 流转规则自动生成事件,需要做以下步骤: 登录COC。
issues inc_type_p_ohter_issues 其他 ohter issues inc_type_p_change_issues 变更操作问题 Change operation problem 父主题: 事件相关枚举信息
在主屏可以看到添加的应用,支持填写故障开始时间、恢复时间及故障描述。提交后该应用的状态会变为恢复状态。 受影响应用支持执行应急预案快速恢复故障、同时可以查看该应用的告警、事件和变更信息。 图2 影响应用页面 父主题: WarRoom
Management,简称IAM)进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能,可以帮助您安全的控制华为云资源的访问。如果华为号已经能满足您的要求,不需要通过IAM对用户进行权限管理,您可以跳过本章节,不影响您使用COC服务的其它功能。 IAM是华为云提供权限管理的基础服务
描述 coc:instance:reinstallOS 授予重装弹性云服务器操作系统的权限。 coc:instance:changeOS 授予切换弹性云服务器操作系统的权限。 coc:instance:start 授予启动云服务器的权限。 coc:instance:reboot 授予重启云服务器的权限。
隔离。 将COC服务的相关操作委托给更专业、高效的其他华为云账号或者云服务,这些账号或者云服务可以根据权限进行代运维。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用COC服务的其它功能。 本章节为您介绍对用户授权的方法,操作流程如图1所示。
SLA记录详情里的“SLA信息”表展示了工单的“SLA状态”与创建SLA模板时设置的SLA规则强相关,当工单的状态类型持续时间超过了SLA规则设置的时间,状态自动修改为“已打破”。 “持续时间”与工单的状态变化强相关。 父主题: SLA管理
regions Array of regions objects 影响的Region 数组长度:0 - 1000 change_num String 变更单号 最小长度:0 最大长度:255 occur_time Long 开始时间 最小值:0 最大值:9223372036854775807
对于无法避免的场景(硬件故障、服务器异常下电、网络设备单板故障等)通过提前制定快速恢复应急预案进行应对。 COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应
效时段。 图8 设置生效时间 当所有SLA信息都填好后,单击“提交”,即可成功创建自定义SLA。 1、仅自定义SLA支持创建,公共SLA会自动预置在系统里,仅对租户开启“启用”,“禁用”,“查看”功能。 2、创建或修改SLA后,将对新进入SLA流程的工单开始生效,对已处于SLA流程中的工单不会生效。
事件处理执行响应预案 若响应预案为“作业”和“脚本”,核实作业和脚本信息后,单击“提交”。 图3 执行作业或脚本页面 若响应预案选择了应急预案,应急预案为自动化预案,需要单击步骤中的“执行”执行脚本或作业,完成后单击“提交”;应急预案为文本预案,根据对应的步骤执行后,单击“提交”。 图4 执行应急预案页面
为了请求B账号下的数据资产信息,COC会自动在B账号中创建服务关联委托: 该委托是云服务委托,“委托权限”为“COCAssumeServiceLinkedAgencyPolicy”,“委托名称”为“ServiceLinkedAgencyForCOC”。 删除B账号时,COC会自动删除B账号内的服务关联委托。
当前告警”页签列表中,对要处理的告警进行清除、转事件、处理、查看历史记录操作。 图11 汇聚告警列表 在告警自动处理页面,可选择已有的脚本、作业,并选择目标实例进行自动化处理。 图12 告警自动处理 单击“转事件”,填写应用、事件级别、责任人等字段,单击“提交”,即可进行告警转事件。并会根据通知规则对责任人进行通知。
资源运维常见问题 补丁管理常见问题 自动化运维常见问题 批量操作常见问题 参数管理常见问题 资源运维权限和授权项说明
SLO管理 SLO(服务等级目标,Service Level Object),SLO管理目前对接Warroom、故障、告警等功能,自动化地完成SLO的计算,为SLO看板大屏提供数据。 查看SLO SLO指标配置 SLO中断记录 父主题: 基础配置