检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
启动WarRoom 操作场景 重大事件需启动WarRoom攻关,进行拉会处理事件,事件可快速恢复。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 事件管理”,选择“待处理的”页签,单击事件标题进入“事件详情”页面。 图1 进入事件单详情 单击“启动WarRoom”。 图2
Warroom是什么? 为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。已受理的事件可以启动Warroom,具体参考启动WarRoom。 Warroom使用指导,请参考WarRoom管理。 父主题: 故障管理常见问题
WarRoom状态 操作场景 WarRoom启动后,在处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 >
次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 单击“提交”,右侧弹出“确认执行”页面。
移动应用管理 操作场景 移动应用管理用于管理事件启动Warroom时,创建企业微信Warroom作战室必要的企业微信配置信息,用户可通过移动应用管理页面管理企业微信的配置信息。 查看移动应用管理 登录COC。 在左侧导航树中选择“基础配置 > 移动应用管理”页面。当该租户已绑定企
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在
事件单被驳回后为“被驳回”状态,创建人可关闭事件或更新事件信息后重新提交。 事件单被受理后为“已受理”状态,已受理状态下可进行“事件处理”、“升降级”、“添加备注”、“启动warroom”等操作。 事件单被处理后,进入“已解决待验证”状态,已解决待验证状态下可进行“验证”操作,验证通过后事件单进入“已完成”状
命中流转规则时,创建事件/告警,并根据排班管理通知对应责任人。责任人可对告警进行处理或转事件,定位恢复后,清除告警。对于无法清除的告警,可以转事件进行升级或启动WarRoom处理。形成规范性告警处理流程,避免告警处理异常。 标准化事件处理流程包含以下步骤: 集成管理接入原始告警数据;
无法找到应用管理层级说明页面? 若您未创建应用,您可在“应用管理”页面中找到应用管理层级说明,如图1应用管理层级说明。您在创建应用后,将不再展示应用管理层级说明。 图1 应用管理层级说明 父主题: 资源管理常见问题
在弹框中单击“确认”,即可删除演练任务。 图4 删除演练任务 启动演练 对已经创建的演练任务,启动演练。 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 在演练任务列表的“操作”列,单击“启动演练”,进入“演练记录详情”页面。 图5 启动演练 在“演练记录详情”
处理事件 驳回事件 驳回后重新提交事件 转发事件 受理事件 升降级 添加备注 启动WarRoom 处理事件 验证事件 事件创建改进单 全链路故障诊断 父主题: 事件管理
单击“完成配置”,完成演练任务创建。 步骤四:启动演练 在左侧导航栏选择“韧性中心 > 混沌演练”页面,进入混沌演练页面。 单击“演练任务”页签,进入演练任务页面。 找到步骤三中创建的演练任务,单击操作列“启动演练”。 图7 启动演练 了解风险提示后,单击“确认”,进入演练记录详情页面。
标签的键可以包含任意语种字母、数字、空格和_ . : = + - @特殊字符,但首尾不能含有空格,不能以_sys_开头,限制长度最长128个字符。 标签的值可以包含任意语种字母、数字、空格和_ . : / = + - @特殊字符,但首尾不能含有空格,限制长度最长255个字符。 单击“下一步”,进入“模板选择”页面。
实例无法选择? 实例需要安装UniAgent才能执行自动化运维。 安装UniAgent请参考:安装UniAgent。 父主题: 自动化运维常见问题
机器无法选择? 请确认机器状态是否正确,资源状态为运行中且UniAgent状态为运行中。 UniAgent安装可参考安装UniAgent。 父主题: 补丁管理常见问题
前操作时间必须大于计划开始时间且小于计划结束时间); (4)变更单必须点击【变更开始】 开启工单提权后,北向接口无法使用。例如执行脚本开启工单提权,北向调用脚本接口无法使用。 操作步骤 登录COC。 在左侧菜单栏选择“变更管理 > 变更管控”页面,启用工单授权默认关闭,若需启用工单授权点击开启即可。
不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 是否关机:勾选“立即关机”,工单开始执行时会自动将未关机的实例关机。 设置“登录凭证”。 密码:用户
合规性报告摘要 查看不合规的补丁状态,根据状态不同查看不同解决方案 表1 不同合规性状态的解决方案 不合规状态 解决方案 失败 查看生成此合规性报告的补丁工单日志,根据失败的日志解决此问题 已安装待重启 补丁已安装修复,待机器重启后生效,机器重启后扫描即可解决不合规问题 已拒绝 在补丁基
资源运维中批量关闭云服务器 批量重启云服务器 ecs:cloudServers:reboot 资源运维中批量重启云服务器 批量启动云服务器 ecs:cloudServers:start 资源运维中批量启动云服务器 切换弹性云服务器操作系统 ecs:cloudServers:changeOS 资源运维中批量切换云服务器的操作系统
授予重装弹性云服务器操作系统的权限。 coc:instance:changeOS 授予切换弹性云服务器操作系统的权限。 coc:instance:start 授予启动云服务器的权限。 coc:instance:reboot 授予重启云服务器的权限。 coc:instance:stop 授予关闭云服务器的权限。