正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询服务的终端节点。 父主题: 使用前必读
查询合规性报告详情 功能介绍 分页获取节点补丁详情 URI GET /v1/patch/instance/compliant/{instance_compliant_id} 表1 路径参数 参数 是否必选 参数类型 描述 instance_compliant_id 是 String
enterprise_project_id String 企业项目id name String 节点名称 instance_id String 节点ID node_id String cce集群节点ID ip String 节点IP eip String 弹性公网ip region String 区域
怎么能收到事件单通知? 登录COC。 在人员管理中完成消息通知订阅,具体参考人员管理。 在通知管理中配置通知规则,具体参考通知管理。 父主题: 故障管理常见问题
获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects":
应急预案 操作场景 您可以对系统可能发生的故障建立对应的应急预案,在故障发生后可以参考应急预案进行故障紧急恢复。 创建应急预案 登录COC。 在左侧菜单栏选择“韧性中心 > 应急预案”页面,选择“自定义预案”页签。 图1 应急预案页面 单击“创建应急预案”,填写应急预案基本信息。
、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升应用韧性,建立运维信心
助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。
使用前必读 概述 调用说明 终端节点 约束与限制 基本概念
和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。 多AZ容灾 COC支持跨AZ容灾,当一个AZ异常时,不影响COC实例持续提供服务。 数据容灾 通过数据定期备份方式实现数据容灾。
一系列常用实践。 表1 常用最佳实践 实践 描述 标准化故障管理 建立标准化的事件流程,实现规范性处理 全旅程混沌工程方案 对系统进行混沌演练,通过演练结果检验和提升系统的可用性 一站式资源运维 检查主机操作系统(OS)补丁的合规性情况,避免主机因为OS补丁缺失产生漏洞,导致业务受损
参数 参数类型 描述 batch_index Integer 批次索引,从1开始 total_instances Integer 批次内实例节点数量 rotation_strategy String 暂停继续策略 枚举值: CONTINUE PAUSE properties String
应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。 解决方案 端到端事件流程:明确标准化事件处理流程,通过WarRoom实现多运维兵种协同作战,通过响应预案提升事件处理效率。
故障管理常见问题 生成事件的流程是什么? 怎么能收到事件单通知? Warroom是什么?
在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量ECS操作”模块中单击“重装操作系统”,进入“重装操作系统”页面。 在“重装操作系统”页面,选择“添加实例”。 图1 重装展示操作页 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根
切换操作系统 操作场景 通过Cloud Operations Center ECS操作批量切换操作系统功能进行ECS实例批量切换系统。 注意事项 如果存在未关机的实例,需要勾选“立即关机”。 如果不存在未关机的实例,则可直接提交执行。 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择
若脚本入参设置方式需选择“参数仓库”,请提前在本服务左侧菜单“参数管理 > 参数中心”模块中创建需要选择的参数。 填入执行用户及执行超时时间。执行用户:即在目标实例节点上执行脚本的用户,默认用户为root;超时时间:脚本在单个目标实例上执行的超时时间,默认为300秒。 单击“+添加实例”,选择脚本执行目标
HTTPS协议。 Endpoint 指定承载REST服务端点的服务器域名或IP,不同服务不同区域的Endpoint不同,您可以从地区和终端节点获取。 例如IAM服务在“华北-北京四”区域的Endpoint为“iam.cn-north-4.myhuaweicloud.com”。 resource-path
框支持输入“结束时间”,“起始时间”为“结束时间”向前1小时。支持时间轴自动刷新,当勾选“自动刷新”后,“结束时间”根据刷新频率自动刷新到系统最新当前。 图2 故障时间范围选择 应用拓扑大屏默认显示当前应用下的所有子应用。 图3 应用拓扑(应用层) 点击拓扑上的子应用,查看组件层
在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量FlexusL操作”模块中单击“切换操作系统”,进入“切换操作系统”页面。 在“切换操作系统”页面,选择“添加实例”。 图1 切换展示操作页 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。