检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
识库,实现已知故障快速恢复,未知故障沉淀经验。 图4 标准化故障管理 智能化混沌演练 全旅程混沌工程解决方案,快速评估应用潜在韧性风险,持续看护应用架构。 端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。 故
事件管理 创建事件单 受理事件单 提交事件单解决方案 验证事件处理结果 查询事件单详情 事件相关枚举信息 父主题: 故障管理
华北-乌兰察布-汽车一(cn-north-11) 西南-贵阳一(cn-southwest-2) 节点(rds.nodes) 数据库代理(rds.proxies) 数据库代理节点(rds.proxynodes) 文档数据库服务 DDS 实例(dds.instances) 华北-北京四(cn-north-4) 华南-广州(cn-south-1)
点击问题单名称进入问题详情页面,单击右上角“验证”,跳转验证详情,填写信息后点击提交。 图1 问题单验证页面 验证通过后问题单闭环;验证未通过问题状态会走到定位出方案中。 父主题: 处理问题
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
COC结合典型的客户业务场景,总结了几种最佳实践案例,方便您快速加深对COC的认识。 最佳实践 标准化故障管理 全旅程混沌工程方案 一站式资源运维 常见问题 了解更多常见问题、案例和解决方案 热门案例 COC权限如何配置? 首次安装UniAgent如何操作? 如果资源无法在资源管理页面中查询到,如何处理?
管理。 图3 分配COC策略 如已有包含云运维中心策略的群组,可选择"继承所选用户组的策略"方式授权,可参考IAM用户授权。 选择授权范围方案,指定企业项目资源。 完成授权。 图4 完成授权 父主题: 产品咨询
脚本内容大小限制1M。 单个租户账号下所有子账号最多支持创建200个脚本。 公共脚本 公共脚本是由云运维中心提供几种常见运维场景的解决方案,脚本详情所有用户可见,公共脚本不支持用户的增加、修改和删除。 父主题: 脚本管理
力客户作业可信和稳定可靠。 标准化故障管理,加持WarRoom作战驾驶舱,实现故障高效协同和快速恢复。 智能化混沌演练,全旅程混沌工程解决方案,颠覆传统被动运维模式,推动客户向主动运维变革。 父主题: 使用前必读
需要按region配置实施人&配合人; 需要按region配置计划变更时间窗(注:允许变更时间窗受变更级别&变更类型限制)。 7、任务类型:选择作业或变更方案。 以上内容填写完成后,单击“提交申请”后进入审批环节。 父主题: 变更中心
资源类型 目前支持纳管的资源类型: 弹性云服务器 ECS 目前支持托管(账号导入)的资源类型: 弹性云服务器 ECS、分布式缓存服务 DCS、云数据库 RDS、分布式消息服务 DMS 账号基线 基线账号数量≤30个,关联的组件数量≤100个。
消息通知服务 云运维中心中的故障管理、资源运维等场景中,支持发送短信、邮件、语音、企业微信、钉钉等通知。如需使用需要先开通消息通知服务。 通知管理 云数据库RDS 资源运维中,可以对RDS进行批量操作。混沌演练中,支持对RDS进行演练任务执行。 资源运维 混沌演练 裸金属服务器 资源运维中,
所选实例处于正常状态,才能执行此操作。 批量停止 登录云运维中心。 在左侧导航栏选择“资源管理 > 资源批量操作”,进入“资源批量操作”页面。 资源类型选择“云数据库RDS”,单击“停止实例”,进入“停止实例”页面。 单击“添加实例”,设置“选择实例”。 表1 选择实例参数说明 参数 示例 说明 选择方式
所选实例处于正常状态,才能执行此操作。 批量重启 登录云运维中心。 在左侧导航栏选择“资源管理 > 资源批量操作”,进入“资源批量操作”页面。 资源类型选择“云数据库RDS”,单击“重启实例”,进入“重启实例”页面。 单击“添加实例”,设置“选择实例”。 表1 选择实例参数说明 参数 示例 说明 选择方式
所选实例处于已停止状态,才能执行此操作。 批量开启 登录云运维中心。 在左侧导航栏选择“资源管理 > 资源批量操作”,进入“资源批量操作”页面。 资源类型选择“云数据库RDS”,单击“开启实例”,进入“开启实例”页面。 单击“添加实例”,设置“选择实例”。 表1 选择实例参数说明 参数 示例 说明 选择方式
已解决待验证 当触发类型为告警单,状态类型有 告警中 当触发类型为待办任务,状态类型有 待受理 处理中 当触发类型为问题单,状态类型有 未受理 定位出方案中 待现网实施 待验证 SLA目标 可开启SLA目标,在开启SLA之后,最多可以设置7天 通知对象 通知对象分为 工单责任人 排班 个人 其中工单责任人是默认通知
步骤二:创建应用 管理应用与云资源的关系,并为后续资源的监控、自动化运维等,提供统一、及时的资源环境管理服务。 步骤三:创建演练任务 针对资源预设演练方案,支持多攻击任务自由编排的故障注入组合。 步骤四:启动演练 按照已经创建的演练任务,自动化的故障注入。 准备工作 注册账号并实名认证。 在
ECS)上执行操作。 Global 定时运维 提供用户从脚本、作业等已有能力选择任务并且创建定时任务的能力。支持单次执行和周期执行两种执行方案,周期性包括Cron表达式和简单周期执行。 Global 参数中心 支持Region级参数全生命周期管理,持续看护参数正确性和一致性。支持作业编排等运维场景快速引用。
淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。 解决方案 端到端事件流程:明确标准化事件处理流程,通过WarRoom实现多运维兵种协同作战,通过响应预案提升事件处理效率。 图1 标准化故障管理
warroom_id String warroom_id 最小长度:0 最大长度:255 handle_time Long 最后一次提交解决方案时间戳 最小值:1 最大值:9999999999 status String 状态KEY,参考:枚举 事件状态 最小长度:0 最大长度:255