检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对
创建产品 登录云运维中心。 在左侧导航栏选择“资源管理 > 服务目录”。 单击“产品组合管理 > 我创建的产品”。 单击“创建产品”。 设置“创建产品”。 表1 创建产品参数说明 参数 说明 名称 根据命名规则,自定义产品的名称。 创建人 产品的创建人。默认为当前用户。 描述 可选参数,请填写产品的详细说明。
执行自定义脚本 功能介绍 执行脚本 脚本入参、超时时间、执行用户、资源受限 脚本入参支持20个。 单次下发的机器支持200个。 单次批次内机器数量最大10个。 最大批次数量为20批。 脚本输出的日志总量只支持1MB。 URI POST /v1/job/scripts/{script_uuid}
天”。 添加删除前通知:可选参数,设置删除前通知时间,会按照通知方式和通知用户在设定的时间通知参数即将删除。最多可设置2次。 未修改通知:可选参数,设置未修改通知时间,若参数到设定时间未被修改,会按照通知方式和通知用户在设定的时间通知,最多可设置2次。 通知方式:添加“删除前通知
天”。 添加删除前通知:可选参数,设置删除前通知时间,会按照通知方式和通知用户在设定的时间通知参数即将删除。最多可设置2次。 未修改通知:可选参数,设置未修改通知时间,若参数到设定时间未被修改,会按照通知方式和通知用户在设定的时间通知,最多可设置2次。 通知方式:添加“删除前通知
在左侧导航栏选择“故障管理 > 事件管理”。 单击上方“全部事件单”。 选择需要诊断的事件单,单击事件标题。 单击上方“应用诊断”。 单击时间框,设置故障时间。 时间框输入的时间为“结束时间”,“起始时间”为“结束时间”向前1小时。选择时间后,应用拓扑大屏展示所选时间段内应用和子应用的告警数量,右侧详情页展示应用故障详情。
“手动安装UniAgent”页面 UniAgent安装完成后,单击 “返回自动安装”。 单击“设置安装机”,设置刚才完成UniAgent安装的机器为安装机。 图4 设置安装机 在弹框中填写设置安装机相关信息,单击“确认”。 图5 确定安装机 父主题: 资源管理常见问题
问题管理支持设置通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理,通知类型需要选择“问题通知”。 前提条件 需要先在应用管理中创建您的应用。 创建问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 单击右上方“创建问题单”。 设置“创建问题单”。
- 设置“区域”、“目标实例模式”和“作业步骤”。 区域:请选择目标实例所在区域。 目标实例模式:请选择作业步骤和目标实例的执行方式。 所有步骤一致:所有步骤在所有目标实例执行。 每个步骤独立:可独立设置每个作业步骤执行的目标实例和分批策略。 每个任务独立:可独立设置每个作业任务执行的目标实例和分批策略。
单击上方“点击此处”或“定时运维” 。 设置“配置自动定时任务”。 表1 配置自动定时任务参数说明 参数 说明 示例 任务类型 可选项“扫描任务”、“修复任务”。 扫描任务和修复任务触发时会按照当前设置的默认基线执行。 扫描任务 执行时间 以时间表达式设置。详细使用方法请参考Cron表达式使用。
选择需要清除的告警,单击操作列“清除”。 设置“清除告警”。 表1 清除告警参数说明 参数 说明 业务是否中断 可选项“是”、“否”。 故障发生时间 仅业务是否中断选择“是”时需要设置。 请填写故障发生的时间。 故障恢复时间 仅业务是否中断选择“是”时需要设置。 请填写故障的恢复时间。 备注
一个分批策略。 每个任务独立:可独立设置每个作业任务执行的目标实例和分批策略。 作业步骤:可自定义配置作业详情。 单击具体作业名称,右侧弹出“修改参数”页面。 设置“输入”、“输出”参数,设置“异常处理”选项。 目标实例:单击“添加实例”,设置“选择实例”。 表2 选择实例参数说明
限制长度1-1000个字符。 影响应用 请填写应用的影响描述。 支持添加和删除影响应用。 设置“处理过程”。 表2 处理过程参数说明 参数 说明 处理过程 请填写处理过程的时间和过程描述。 支持添加和删除处理过程。 设置“根因分析”。 表3 根因分析参数说明 参数 说明 根因分析 请填写故障的根因分析。
在“待处理的”页签,选择需要验证的改进单,单击改进单标题。 单击右上方“验证”。 设置“结论验证”。 表3 结论验证参数说明 参数 说明 改进验证 可选项“通过”、“驳回”。 驳回理由 仅改进验证选择“驳回”时需要设置。 请填写驳回的详细理由。 单击“确定”。 完成改进单验证。 改进单历史记录
一个分批策略。 每个任务独立:可独立设置每个作业任务执行的目标实例和分批策略。 作业步骤:可自定义配置作业详情。 单击具体作业名称,右侧弹出“修改参数”页面。 设置“输入”、“输出”参数,设置“异常处理”选项。 目标实例:单击“添加实例”,设置“选择实例”。 表2 选择实例参数说明
脚本执行时使用该参数,参数值为实时从参数仓库对应区域中获取的最新参数值 设置“执行用户”和“超时时间”。 执行用户:默认“root”,目标实例节点上执行脚本的用户。 超时时间:默认“300”秒,脚本在单个目标实例上执行的超时时间。 单击“添加实例”,设置“选择实例”。 表2 选择实例参数说明 参数 说明
图2 查询SLA记录详情 SLA记录详情里的“SLA信息”表展示了工单的“SLA状态”与创建SLA模板时设置的SLA规则强相关,当工单的状态类型持续时间超过了SLA规则设置的时间,状态自动修改为“已打破”。 “持续时间”与工单的状态变化强相关。 父主题: SLA管理
固定班次:对人员进行固定排班管理,直接为排班角色设置相应的人员。 轮班(周一 -- 周日):对人员进行轮班管理,可根据轮班规则,按照时间生成对应的排班 排班维度:排班的影响范围,可选择“应用排班”和“全局排班”。 全局排班:排班不考虑您创建的应用,即设置的排班与应用无关 应用排班:排班需按照应用创建,不同应用排班不同
在“日常运维”模块单击“作业管理”。 在“自定义作业”页签,选择需要编辑的作业,单击操作列“编辑”。 参数信息与创建自定义作业基本相同,请参考创建自定义作业。 设置完成后,单击“提交”。 完成自定义作业编辑。 克隆自定义作业 登录云运维中心。 在左侧导航栏选择“资源管理 > 自动化运维”。 在“日常运维”模块单击“作业管理”。
CMDB资源视角 资源类型 默认参数,不支持修改。 RDS 区域 在下拉列表中选择区域。 华北-北京一 目标实例 在筛选框设置条件,选择筛选出的实例。 - 设置“分批策略”和“熔断策略”。 分批策略:可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。 自动分批:用户