检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应急预案基本信息参数说明 参数名 参数描述 应急预案名称 用户自定义应急预案名称 企业项目 应急预案所属的企业项目,默认为default 所属应用 预案所属的应用 恢复时长 预期的故障恢复时长 版本号 版本号 摘要 描述应急预案主要信息 填写故障处理,应急预案类型可以选择“自动化预案”和“文档预案”。
新用户首次登录云运维中心 COC,由于COC提供了对云服务资源的自动化运维、故障管理等能力,需要获得访问其他云服务的委托权限。COC需要创建名为ServiceLinkedAgencyForCOC和ServiceAgencyForCOC的委托。委托包含的权限可见表1以及表2。 图1 开通COC 表1
当前告警”页签,查看集成告警列表信息。 在集成告警列表中勾选告警单,单击“转事件”或“批量转事件”。 相同区域的告警才能批量转事件。 输入事件相关信息,单击“确定” 图1 告警转事件 事件的参数说明,参考创建事件。 父主题: 汇聚告警
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则
选择需要修复的实例,单击“修复”。 图1 选择需要修复的实例 设置分批策略。 分批策略: 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。
集成管理 本文介绍如何集成监控源。 操作场景 每个监控源的集成配置都有独立的集成接入步骤,需要单独接入,各监控源的详细步骤可查看集成接入中各监控集成说明。 操作步骤 该步骤主要介绍华为云监控系统、开源监控系统的接入步骤 登录COC。 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”配置页面。
创建参数 操作场景 托管实时参数,支持文本参数和加密数据的全生命周期管理。 注意事项 参数策略涉及到参数的删除,配置时请谨慎使用。 操作步骤 登录COC。 在左侧菜单栏选择“资源运维 > 自动化运维 > 参数中心”,单击“创建参数”,进入“创建参数”页面。 图1 创建参数 在“创
随着传统IT基础设施运维向云服务运维方式的转变,传统的运维手段面临服务间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计
关联组件,关联的组件后期都以该帐号基线来纳管主机。 图2 基线信息录入 主机的某个帐号能被成功纳管有三个前提条件: 1、安装UniAgent且UniAgent的状态为运行中。 2、主机状态为运行中。 3、主机中存在基线中配置的帐号且帐号可登录。 为了确保组件下新增的主机实例能被自
根据作业名称,在“操作”列选择要执行的操作,包括“执行”、“编辑”、“克隆”、“删除”。 修改作业:单击“修改”,可按照创建自定义作业中的操作步骤进行修改,单击“取消”可放弃本次修改,单击“提交”会更新作业,并递增作业的版本号。 克隆作业:单击“更多 > 克隆”,可按照创建自定义作业中的操作步骤进行修
租户可自由定制自己需要的SLA。 查询自定义SLA 登录COC。 在左侧菜单栏选择“基础配置 > SLA管理”页面。 在“SLA”页面选择“自定义SLA”页签,即可查看自定义SLA列表。 图1 SLA列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即
事件历史记录 操作场景 可以查看事件的历史记录,包含事件的整个处理过程。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 事件管理”,选择“待处理的”页签,单击事件标题进入“事件详情”页面。 图1 进入事件页面详情 单击“ 事件历史”查看事件历史记录。 图2 查看事件历史记录
手动关联资源 提供用户在对应分组下来关联资源的能力,将对应资源数据关联至某一应用的分组内进行管理。 操作场景 通过Cloud Operations Center关联资源到应用下的指定分组中。 操作步骤 登录COC。 在左侧菜单栏选择“资源管理 > 应用资源管理”,进入“应用资源管
正常状态的期望时间,该时间不会对演练任务产生影响。 图2 演练任务基本信息 选择攻击任务,默认有1个攻击任务组,单击“添加新的任务组”可添加新的任务组,单击“添加一个新的攻击任务”进入“添加新的攻击任务”界面。 图3 选择攻击任务 1.任务组间的任务为串行执行,任务组内的任务为并行执行。
操作系统:主机的操作系统,Linux和Windows。 登录帐号:登录主机的帐号。当操作系统为LINUX时,建议使用root帐号,可保证有足够的读写权限。 登录端口:访问主机的端口。 认证方式:认证方式为密码。 密码:登录主机的密码。 连接测试结果:连接测试的结果,测试安装机和需安装主机间的网络连通性。
操作系统:主机的操作系统,Linux或Windows。 登录帐号:登录主机的帐号。当操作系统为Linux时,建议使用root帐号,可保证有足够的读写权限。 登录端口:访问主机的端口。 认证方式:认证方式为密码。 密码:登录主机的密码。 连接测试结果:连接测试的结果,测试安装机和需安装主机间的网络连通性。
单击“+添加实例”,选择待执行实例的区域,根据实例名称、UniAgent状态等条件筛选并选中目标实例,单击“提交”。 图6 选择目标实例 选择“分批策略”: 自动分批:用户选择的待执行机器,会根据默认规则,分成多批。 手动分批:用户可以根据自身需要,将待执行的机器,分成若干批,控制机器所在的批次。 不分
执行公共脚本 提供用户执行服务提供的公共脚本的能力。 公共脚本说明:COC提供的预定义脚本,用户对公共脚本具有只读和执行权限,具备一些常见的功能,如清理磁盘。 操作场景 通过Cloud Operations Center执行服务提供的公共脚本。 注意事项 在执行脚本时需要确认是否有目标机所属组件资源权限。
不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 选择是否强制重启。 强制重启会导致云服务器中未保存的数据丢失,请谨慎操作。
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。