检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在运维过程中引入混沌工程,通过定期进行演的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升应用韧性,建立运维信心。对于无法避免的场景(硬件故障、服务器异常下电、网络设备单板故障等)通过提前制定快速恢复应急预案进行应对。
自动化运维常见问题 审批人无法接收通知? 自定义脚本参数输入值无效? 实例无法选择? 如何在不重启实例的情况下重置密码? 父主题: 资源运维常见问题
如何通过企业项目进行权限控制 问题描述 如何通过企业项目进行云运维中心的权限控制。 解决方法 管理员登录IAM控制台。 管理员在权限管理-权限中,单击“创建自定义策略”。 图1 创建自定义策略 设置策略内容,选择允许“云服务操作中心”,并选择要进行企业项目鉴权的操作。单击“确定”完成创建。
代理区域 当接入方式选择代理接入时,需选择代理区域。 代理区域是对代理机的分类管理;代理机是指在华为云购买和配置一台华为云弹性云服务器ECS,为解决多云之间网络互通。 - 安装机 安装机是远程安装方式下命令的执行机,必选项。 如果没有配置安装机,按如下步骤进行配置: 单击对应的下拉框,选择“设置安装机”。
代理区域 当接入方式选择代理接入时,需选择代理区域。 代理区域是对代理机的分类管理;代理机是指在华为云购买和配置一台华为云ECS弹性云服务器,为解决多云之间网络互通。 - 安装机 安装机是远程安装方式下命令的执行机,必选项。 如果没有配置安装机,按如下步骤进行配置: 单击对应的下拉框,选择“设置安装机”。
运维知识库:基于历史故障和专家经验构筑运维知识库,实现已知故障快速恢复,未知故障沉淀经验。 图4 标准化故障管理 智能化混沌演练 全旅程混沌工程解决方案,快速评估应用潜在韧性风险,持续看护应用架构。 端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。
最大长度:255 warroom_id String warroom_id 最小长度:0 最大长度:255 handle_time Long 最后一次提交解决方案时间戳 最小值:1 最大值:9999999999 status String 状态KEY,参考:枚举 事件状态 最小长度:0 最大长度:255
障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的“排雷”和“验收”,以确保在正式引流时无重大稳定性风险。 解决方案 混沌演练驱动主动运维:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、复盘改进4个维度,提供端到端混沌演练能力; 沉淀故障
发送通知,解释如下: 事件创建:创建事件后需要发送通知。 事件驳回:事件被驳回后发送通知。 事件转发:事件转发后发送通知。 事件验证:事件解决后进入待验证状态时发送通知。 事件完成:事件已经处理并验证通过后发送通知。 事件验证未通过:事件进入待验证状态下,验证不通过时发送通知。
群组。提供Warroom作战平台、关键监控数据看板集成、关键变更操作集成、故障恢复操作平台。支持内外部Warroom联动,协助客户进行问题解决。 Global 流转规则 流转规则将所有接收的集成原始告警进行抑制、降噪、去重、路由分派操作,支持多监控源纵向抑制、横向收敛,进行多维降
编辑弹窗中的“SLA目标”、“通知对象”、“通知渠道”,如表2所填写 表2 参数说明 参数名称 参数说明 SLA状态类型 当触发类型为事件单,状态类型有 未受理 处理中 已解决待验证 当触发类型为告警单,状态类型有 告警中 当触发类型为待办任务,状态类型有 待受理 处理中 当触发类型为问题单,状态类型有 未受理 定位出方案中
验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。 解决方案 端到端事件流程:明确标准化事件处理流程,通过WarRoom实现多运维兵种协同作战,通过响应预案提升事件处理效率。 图1 标准化故障管理
等待API结果 该原子动作可以用来等待目标对象达到预期的状态。如通过执行API原子动作调用ECS的StartServer接口后,再通过等待API结果原子动作调用ECS的ShowServer接口,直到接口响应中的状态变为ACTIVE,即状态为运行中,才判定ECS实例已经启动成功。 操作步骤
错误码 错误码 状态码 错误码 错误信息 描述 处理措施 400 COC.00040601 Exist script with same name: test1111_param. 存在相同名称的脚本 修改脚本名称 400 COC.00040701 Internal server
创建脚本 功能介绍 创建作业脚本:自定义脚本 脚本有标签属性,表示是高危脚本。创建时候不需要对脚本进行是否是高危的二次校验。 进行租户隔离;北向接口创建的脚本,审批人字段不填写,默认不需要审批 约束条件: 脚本名称:同一租户下,脚本名称不能重复,最大字符64个字符,支持中文+字母+数字+下划线。
修改脚本 功能介绍 修改作业脚本:自定义脚本 约束条件: 脚本名称:同一租户下,脚本名称不能重复,最大字符64个字符,支持中文+字母+数字+下划线。 脚本内容最大4096个字符。 脚本参数个数最多20个。 脚本描述:最大256个字符。 单个参数的参数名称 64个字符,只支持字母+数字+下划线。
执行自定义脚本 功能介绍 执行脚本 脚本入参、超时时间、执行用户、资源受限 脚本入参支持20个。 单次下发的机器支持200个。 单次批次内机器数量最大10个。 最大批次数量为20批。 脚本输出的日志总量只支持1MB。 URI POST /v1/job/scripts/{script_uuid}
修改分组 提供用户修改分组的能力,便于按业务逻辑单元进行资源管理。 操作场景 通过Cloud Operations Center修改分组。 操作步骤 登录COC。 在左侧菜单栏选择“资源管理 > 应用资源管理”,进入“应用资源管理”页面,选择“应用管理”页签,,选择分组,单击。 图1
创建分组 提供用户创建分组的能力,便于按业务逻辑单元进行资源管理。 操作场景 通过Cloud Operations Center创建分组。 操作步骤 登录COC。 在左侧菜单栏选择“资源管理 > 应用资源管理”,进入“应用资源管理”页面,选择“应用管理”页签,展开应用,选择组件,单击“+”。
获取自定义脚本详情 功能介绍 获取脚本详情 约束条件: 只能查询自定义脚本详情 URI GET /v1/job/scripts/{script_uuid} 表1 路径参数 参数 是否必选 参数类型 描述 script_uuid 是 String 脚本UUID 请求参数 无 响应参数