华为云用户手册

  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量FlexusL操作”模块中单击“批量关机”,进入“批量关机”页面。 在“批量关机”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 单击“提交”。 图2 关机展示操作页 在“确认执行”弹框中,单击“确定”。 图3 确认执行 查看执行结果。 图4 查看结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图5 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量FlexusL操作”模块中单击“批量开机”,进入“批量开机”页面。 在“批量开机”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 单击“提交”。 图2 开机展示操作页 在“确认执行”弹框中,单击“确定”。 图3 确认执行 查看执行结果。 图4 查询结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图5 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量RDS操作”模块中单击“批量重启”,进入“批量重启”页面。 在“批量重启”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 单击“提交”。 图2 重启展示操作页 查看执行结果。 图3 执行结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图4 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量RDS操作”模块中单击“批量停止”,进入“批量关机”页面。 在“批量关机”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 单击“提交”。 图2 停止展示操作页 查看执行结果。 图3 执行结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图4 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量RDS操作”模块中单击“批量开启”,进入“批量开机”页面。 在“批量开机”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 单击“提交”。 图2 开启展示操作页 查看执行结果。 图3 执行结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图4 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量E CS 操作”模块中单击“切换操作系统”,进入“切换操作系统”页面。 在“切换操作系统”页面,选择“添加实例”。 图1 切换展示操作页 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 输入“选择镜像ID”。 输入登录凭证。 登录凭证: 密码:用户可使用云服务器原密码或重新设置密码,请输入并牢记密码。 密钥对:用户可以选择 密钥对管理 中对应的密钥对。 创建后设置:用户在登录云服务器前,需要先通过重置密码的方式设置密码。 单击“提交”。 图2 切换展示操作页 在“确认执行”弹框中,单击“确定”。 图3 确定执行 查看执行结果。 图4 执行结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图5 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量ECS操作”模块中单击“重装操作系统”,进入“重装操作系统”页面。 在“重装操作系统”页面,选择“添加实例”。 图1 重装展示操作页 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 输入登录凭证。 登录凭证: 密码:用户可使用云服务器原密码或重新设置密码,请输入并牢记密码。 密钥对:用户可以选择 密钥对管理 中对应的密钥对。 创建后设置:用户在登录云服务器前,需要先通过重置密码的方式设置密码。 单击“提交”。 图2 重装展示操作页 在“确认执行”弹框中,单击“确定”。 图3 确定执行 查看执行结果。 图4 查询执行结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图5 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量ECS操作”模块中单击“批量重启”,进入“批量重启”页面。 在“批量重启”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 选择是否强制重启。 强制重启会导致云服务器中未保存的数据丢失,请谨慎操作。 单击“提交”。 图2 重启展示操作页 在“确认执行”弹框中,单击“确定”。 图3 确认执行 查看执行结果。 图4 查看结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图5 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量ECS操作”模块中单击“批量关机”,进入“批量关机”页面。 在“批量关机”页面,选择“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 单击“提交”。 图2 关机展示操作页 在“确认执行”弹框中,单击“确定”。 图3 确认执行 查看执行结果。 图4 查看结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图5 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,选择 “资源批量操作”,在“批量ECS操作”模块中单击“批量开机”,进入“批量开机”页面。 在“批量开机”页面,单击“添加实例”。 图1 选择实例 选择“分批策略”。 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,可以精确到小数点后一位。 单击“提交”。 图2 开机展示操作页 在“确认执行”弹框中,单击“确定”。 图3 确认执行 查看执行结果。 图4 查询结果 执行结果为“异常”时,可以通过点击“重试”或“批次重试”尝试重新执行失败的任务或批次。也可以点击“取消”或“批次取消”,跳过异常的任务或批次。 图5 取消或者重试
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面,单击页面上方“点击此处”配置自动化任务。 图1 点击此处 填入自动化执行参数,单击“确认配置”。 选择区域后,补丁自动化操作将定时执行该区域中所有Agent正常运行且操作系统为Linux的ECS实例,请自行判断影响范围。 图2 定时任务参数 创建定时任务成功后,可单击页面上方“补丁自动扫描“或“补丁自动修复“进入定时运维页面查看或编辑。 图3 配置完成 图4 定时运维查看
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面,选择“补丁扫描”页签。 图1 选择补丁管理 选择需要查看详情的补丁合规性报告,单击“摘要”。 状态说明: 已安装:补丁符合补丁基线,已经安装在ECS实例上,并且没有可用更新。 已安装非基线补丁:补丁未包含在补丁基线中,但已安装到ECS实例上。 已安装待重启:补丁已被修复,但需要重启ECS实例才可生效。 已拒绝:在补丁基线的补丁例外中被拒绝的补丁,该状态的补丁就算满足基线也不会被修复。 待修复:补丁符合基线,但补丁版本低于基线版本。 修复失败:补丁进行了修复操作,但是修复失败。 图2 补丁合规性报告摘要界面
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面,选择“补丁扫描”页签。 选择需要修复的实例,单击“修复”。 图1 选择需要修复的实例 设置分批策略。 分批策略: 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 图2 选择分批策略 设置熔断策略。 熔断阈值:用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 图3 熔断策略 设置是否允许重启。 部分补丁需要重启生效,若选择否,则需要您择期安排重启 确认执行信息,若无误则单击“确定”。 图4 执行信息界面
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面。 选择“补丁扫描”页签,查看合规性报告列表。 图1 合规性报告列表 单击“创建扫描任务”。 图2 创建扫描任务 单击“添加实例”。 图3 选择实例 选择需要进行扫描的ECS/CCE/BMS实例。 图4 选择需要扫描的ECS实例 图5 选择需要扫描的CCE实例 图6 选择需要扫描的BMS实例 设置分批策略。 分批策略: 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 图7 选择分批策略 设置熔断策略。 熔断阈值:用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 图8 熔断策略 单击“提交”。 图9 单击提交后执行界面 确认执行信息,若无误则单击“确定”。 扫描工单执行完成后单击“合规性报告”按钮则可跳转到合规性报告页面,查看ECS实例合规性状态。 图10 扫描工单界面 图11 合规性报告界面
  • 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面。 选择“补丁基线”页签,查看基线列表。 图1 补丁基线列表 单击“创建补丁基线”。 图2 创建补丁基线 根据界面提示,填写补丁基线相关内容。 图3 填写补丁基线内容 操作系统安装规则填写参数说明见表1 自定义安装规则填写参数说明见表2 表1 操作系统安装规则 类型 可选项 说明 产品 Huawei Cloud EulerOS 全部 Huawei Cloud EulerOS1.1 Huawei Cloud EulerOS2.0 CentOS 全部 CentOS7.2 CentOS7.3 CentOS7.4 CentOS7.5 CentOS7.6 CentOS7.7 CentOS7.8 CentOS7.9 CentOS8.0 CentOS8.1 CentOS8.2 EulerOS 全部 EulerOS 2.2 EulerOS 2.5 EulerOS 2.8 EulerOS 2.9 EulerOS 2.10 选择补丁的产品属性,在补丁扫描修复时将会过滤出该产品的补丁。 分类 全部 Security Bugfix Enhancement Recommended Newpackage 选择补丁的分类属性,在补丁扫描修复时将会过滤出该分类的补丁。 严重性级别 全部 Critical Important Moderate Low None 选择补丁的严重性级别属性,在补丁扫描和修复时会过滤出该严重性级别的补丁。 自动批准 在指定的天数后批准补丁 批准指定日期之前发布的补丁 自动批准满足指定条件的补丁 指定天数 0-365 自动批准选择“在指定的天数后批准补丁”时必填, 指定日期 无 自动批准选择“批准指定日期之前发布的补丁”时必填 合规性级别 未指定 重大 高 中 低 提示 符合该补丁基线的补丁在合规性报告中展示的等级。 包括非安全更新 无 不勾选“包括非安全更新”,在补丁修复时不会进行有漏洞的补丁升级。 补丁例外 无 已批准的补丁以及已拒绝补丁支持以下格式: 完整的软件包名称,格式为:example-1.0.0-1.r1.hce2.x86_64 包含单个通配符的软件包名称,格式为:example-1.0.0*.x86_64 表2 自定义安装规则 类型 可选项 说明 产品 Huawei Cloud EulerOS 全部 Huawei Cloud EulerOS 1.1 Huawei Cloud EulerOS 2.0 CentOS 全部 CentOS 7.2 CentOS 7.3 CentOS 7.4 CentOS 7.5 CentOS 7.6 CentOS 7.7 CentOS 7.8 CentOS 7.9 CentOS 8.0 CentOS 8.1 CentOS 8.2 EulerOS 全部 EulerOS 2.2 EulerOS 2.5 EulerOS 2.8 EulerOS 2.9 EulerOS 2.10 选择补丁的产品属性,在补丁扫描修复时将会过滤出该产品的补丁。 合规性级别 未指定 重大 高 中 低 提示 符合该补丁基线的补丁在合规性报告中展示的等级。 基线补丁 无 用户自定义基线补丁的版本以及发行版号,补丁扫描安装时将会以用户自定义的基线补丁作为是否合规判断依据 单个基线最多允许上传1000条基线补丁。 补丁名称由字母、数字、下划线、中划线、点号、*号、加号组成,最长支持200字符。 第二列数据由版本号(字母、数字、下划线、点号、冒号)-发行版号(字母、数字、下划线、点号)组成,各支持最多50字符,由中划线隔开。 单击“提交”,创建自定义补丁基线。 图4 保存自定义补丁基线
  • 补丁管理 补丁管理提供了用户能够管理ECS或CCE实例上补丁的能力。通过补丁管理能力,用户能够实现操作系统补丁合规性扫描,操作系统补丁合规性修复功能。 补丁管理当前仅支持能够访问公网的机器,可通过绑定EIP或NAT网关的方式实现,请在功能使用前确认。 在执行补丁管理操作之前,请确认执行机器所在的区域为现支持的区域,操作系统为现补丁管理支持操作系统,机器上具备补丁管理依赖的二方包并且功能无损,否则可能会导致执行失败。 补丁管理现支持操作系统以及版本号表1。 补丁管理现依赖的环境见表2。 表1 补丁管理支持操作系统及版本 操作系统 产品 Huawei Cloud EulerOS Huawei Cloud EulerOS 1.1 Huawei Cloud EulerOS 2.0 CentOS CentOS 7.2 CentOS 7.3 CentOS 7.4 CentOS 7.5 CentOS 7.6 CentOS 7.7 CentOS 7.8 CentOS 7.9 CentOS 8.0 CentOS 8.1 CentOS 8.2 EulerOS EulerOS 2.2 EulerOS 2.5 EulerOS 2.8 EulerOS 2.9 EulerOS 2.10 表2 补丁管理依赖 依赖类型 依赖项 Python环境 Python(Python2或Python3) dnf软件包(Huawei Cloud EulerOS2.0、CentOS8.0及以上版本、EulerOS2.9及以上版本依赖) yum软件包(Huawei Cloud EulerOS1.1、CentOS8.0以下版本、EulerOS2.9以下版本依赖) lsb-release软件包 软件包管理工具 rpm 补丁基线 补丁扫描 补丁修复 补丁合规性报告详情摘要 补丁自动化操作 父主题: 自动化运维
  • 前置条件 在Cloud Operations Center进行跨账号资源的操作之前,用户需要满足一些前置条件。 用户已经开通组织(Organizations)或已经加入到一个组织中,可到组织的服务页面查看。 图1 组织服务 用户所在组织将COC设置为可信服务,可到组织页面的可信服务查看。 图2 可信服务 当前执行跨账号运维操作的账号是组织管理员或者是组织管理员所委派的委托管理员。 图3 委托管理员
  • 操作步骤 登录COC。 在“多云配置”页面中单击接入列表中对应云厂商的所在行“操作”列中的“编辑”。 图1 编辑账号 填写信息,具体信息可参考 表1 ,单击“确认”。 表1 编辑账号参数说明表 参数 说明 示例 账号名称 基本信息,账号名称,必填项 - Access Key ID 基本信息,Access Key ID,必填项 - 是否复用 Access Key Secret 基本信息,是否复用 Access Key Secret,必填项。 当选择“是”时,则复用最近一次保存的 Access Key Secret。 当选择“否”时,则需要填写新的 Access Key Secret 是 Access Key Secret 基本信息,Access Key Secret -
  • 注意事项 当前只有弹性云服务器(ECS)的实例支持UniAgent的操作。 操作系统使用限制 表1 UniAgent支持的Linux操作系统及版本 操作系统 版本 EulerOS 1.1 64bit 2.0 64bit CentOS 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit 7.7 64bit 7.8 64bit 7.9 64bit 8.0 64bit Ubuntu 16.04 server 64bit 18.04 server 64bit 20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器,支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本
  • 注意事项 当前只有弹性云服务器(ECS)的实例支持UniAgent的操作。 操作系统使用限制 表1 UniAgent支持的Linux操作系统及版本 操作系统 版本 EulerOS 1.1 64bit 2.0 64bit CentOS 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit 7.7 64bit 7.8 64bit 7.9 64bit 8.0 64bit Ubuntu 16.04 server 64bit 18.04 server 64bit 20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器,支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本
  • SLO看板 SlO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表5。 图8 SLO看板 表5 SLO看板数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 SLO总体达成情况 年度SLO期望值 SLO管理 全年度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); 年 百分比 年度SLO实际值 SLO管理 全年度应用实际达成的SLO情况 年度SLO实际值=1-(年度应用不可用时长/全年应用总时长)*100%; 单个区域多应用SLO实际值=avg(年度SLO实际值); 多个区域单应用SLO实际值=min(年度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); 天/月 百分比 未达标应用数量 SLO管理 统计未达标SLO目标的应用数量 统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标。 天/月 个 月度SLO期望值 SLO管理 月度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); 天/月 百分比 月度SLO实际值 SLO管理 月度应用实际达成的SLO情况 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 单个区域多应用SLO实际值=avg(月度SLO实际值); 多个区域单应用SLO实际值=min(月度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); 天/月 百分比 应用维度SLO统计 应用SLO统计 SLO管理 统计应用维度的SLO情况 按照应用维度,展示月度SLO实际值。 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 多个区域单应用SLO实际值=min(月度SLO实际值); 天/月 百分比 Error Budget Error Budget SLO管理 用于测量实际性能与预期性能之间的差异,用于计算错误成本 当SLO实际值>SLO期望值时: ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min); 当SLO实际值≤SLO期望值时,ErrorBudget=0。 天/月 分钟
  • 安全合规 安全合规包含补丁扫描数量统计和账号纳管数据统计(待实现)。补丁扫描支持按照区域、应用和操作系统维度查看实例合规数据、按时间段范围展示实例已扫描数量统计。 图7 安全合规 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 补丁管理 实例扫描情况 补丁管理/CMDB 租户账号下所有ECS,执行过补丁扫描和未执行过扫描的实例数量 未扫描实例=全量实例-扫描实例; 区域、应用 个 实例合规性状态 补丁管理 已扫描过的实例中,合规的实例数量和不合规的实例数量 统计补丁管理中各合规性状态的实例数量; 区域、应用 个 最近扫描时间 补丁管理 统计已扫描的实例,最近一次的扫描时间区间 统计已扫描的实例,最近一次的扫描时间区间 区域、应用 个 账号管理 纳管实例数量 账号管理 统计账号管理中,纳管的各云服务实例数量 统计账号管理中,纳管的各云服务实例数量 区域、应用 个 纳管率 账号管理 统计所有实例中,纳管的各云服务实例数量占比 纳管率=已纳管数量/实例总数*100% 区域、应用 百分比 纳管实例统计 账号管理 按照时间周期,呈现实例纳管的趋势情况 按照时间周期,呈现实例纳管的趋势情况 区域、应用 -
  • PRR看板 PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、服务复盘、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达中体现服务不满足的评审项分布。服务复盘和改进呈现对评审不满足项的整改情况。指标详情可查看表6。 图9 PRR看板 表6 PRR看板数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 服务PRR评审汇总 评审服务总数 PRR评审 统计参与PRR评审的服务数量 选择时间范围内,所有参与PRR评审的服务数量; 天/月 个 服务PRR评审列表 PRR评审 统计参与PRR各个阶段的服务数量与通过情况 选择时间范围内,参与PRR各个阶段的所有服务数量与通过情况分布; 天/月 个 评估雷达分布图 评估雷达分布 PRR评审 统计PRR不满足项的分布 选择时间范围内,各评审项中不满足的项目数量; 天/月 个 服务复盘 服务复盘列表 PRR评审 统计需要复盘的服务总数以及通过情况 选择时间范围内,需要复盘的服务总数以及复盘通过分布情况; 天/月 个 改进任务闭环情况 任务闭环统计 PRR评审 统计改进任务数量以及闭环情况 选择时间范围内,所有改进任务的数量以及闭环通过分布情况; 天/月 个 改进任务列表 PRR评审 统计各个维度的改进任务数量以及闭环情况 按照评审项目维度统计,各个维度的改进任务数量以及闭环分布情况; 天/月 个
  • 监控告警 监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警人力情况和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4。 图6 监控告警 表4 监控告警数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 告警分析 告警总量 告警管理 统计所有告警的数量 选择时间范围内,所有告警的数量 天/月 个 告警级别 告警管理 统计各个级别的告警的数量 选择时间范围内,各个级别的告警的数量 天/月 个 告警趋势 告警管理 选择时间范围内,各级别告警的数量趋势变化 选择时间范围内,各个级别的告警的数量 天/月 个 告警成本 告警参与人数 告警管理 统计参与处理告警的人数 去重计算集成告警的责任人数量 天/月 人 人均告警处理量 告警管理 统计人均处理的告警数量 选择时间范围内,告警总数量/告警参与人数 天/月 人 告警自动化处理率 告警管理 统计告警的自动化处理情况 选择时间范围内,自动化处理告警/告警总数*100% 天/月 百分比 告警质量 故障告警发现率 事件管理 统计所有事件单中,由告警发现的事件单数量 选择时间范围内,告警转事件单数量/事件单总数量*100% 天/月 百分比 WarRoom告警发现率 WarRoom 统计所有WarRoom中,由告警发现的WarRoom数量 选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom 总数量*100% 天/月 百分比 告警冒泡 告警冒泡 告警管理 按照应用维度,展示告警的风险冒泡情况 按照应用下告警的级别和数量进行加权计算并排序 天/月 不涉及
  • 变更管理 变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2。 图4 变更管理 表2 变更管理数据字典 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 变更导致现网事件 变更管理 统计由于变更原因导致的现网各个级别的事件数量 选择时间范围内,各级别事件单类型为变更操作问题的数量 天/月 个 变更等级 变更管理 统计各个等级的变更单的数量 选择时间周期内,各个等级的变更单数量 天/月 个 变更方式 变更管理 统计各个方式(手动变更、自动化变更)的变更单数量 计算各个方式的变更单数量 天/月 个 变更总量 变更管理 统计的变更单的数量 选择时间周期内,已完成的变更单数量 天/月 个 变更成功率 变更管理 统计变更单的成功率情况 变更成功率=变更成功的变更单数量/已完成的变更单数量*100% 天/月 百分比 变更平均时长 变更管理 统计变更单的平均处理时长 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 自动化变更率 变更管理 所有变更单中,自动化变更的占比 自动化变更数量/所有变更单数量*100% 天/月 百分比 变更趋势 变更管理 变更成功和失败的数量以及变更成功率的趋势变化 变更成功和失败的数量以及变更成功率 天/月 个 变更人力 变更管理 统计参与变更所需要的人数 变更人力=变更配合人+变更实施人 天/月 人次 变更时间 变更管理 统计变更单的平均处理时长 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm
  • 故障管理 故障管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。 图5 故障管理 表3 事件管理数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 事件统计 事件总量 事件管理 统计所有事件单数量 选择时间范围内,所有事件单的数量 天/月 个 事件级别 事件管理 统计各个类型和级别的事件单的数量 选择时间范围内,各个类型和级别的事件单的数量 天/月 个 事件闭环率 事件管理 统计事件单的闭环情况 选择时间范围内,闭环状态的事件单数量/事件单总量*100% 天/月 百分比 事件耗时 事件管理 统计事件单平均处理时长 已闭环事件单的处理时间求和/已闭环的事件单数量*100% 天/月 ddhhmm 受损应用 事件管理 统计事件单受损应用数量 去重计算事件单的受损应用数量(包含已删除应用) 天/月 个 WarRoom WarRoom数量 WarRoom 统计所有WarRoom数量 选择时间范围内,所有WarRoom数量 天/月 个 故障级别 事件管理 WarRoom关联的事件单级别分布 统计WarRoom关联的各级别事件单的数量 天/月 个 受损应用 WarRoom 统计WarRoom中受损应用的数量 去重计算WarRoom的受损应用数量 天/月 个 平均恢复时长 WarRoom 统计WarRoom平均恢复时长 选择时间范围内,已完成的WarRoom时间求和/已完成WarRoom数量 天/月 ddhhmm 受理时间窗分布 WarRoom 统计WarRoom在各个时间窗内的拉起次数 统计各个时间窗范围内,WarRoom的拉起次数 天/月 个 回溯改进 回溯总数 问题管理 所有的回溯单数量 统计时间周期内,所有的回溯单数量 天/月 个 回溯闭环率 问题管理 统计回溯单的闭环情况 闭环率=已闭环回溯单数量/回溯单总量*100% 天/月 百分比 改进总数 问题管理 所有的改进单数量 统计时间周期内,所有的改进单数量 天/月 个 改进闭环率 问题管理 统计改进单的闭环情况 闭环率=已闭环改进单数量/改进单总量*100% 天/月 百分比
  • 运维总览 运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。 图3 运维总览 表1 运维总览数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 总览数据 事件数量 事件中心 统计事件单的数量趋势 选择时间周期内,所有事件单的数量 天/月 个 告警数量 告警中心 统计告警的数量趋势 选择时间周期内,所有告警的数量 天/月 个 WarRoom数量 WarRoom 统计WarRoom的数量趋势 选择时间周期内,所有WarRoom的数量 天/月 个 监控发现率 告警中心 发生的事件单中,有相关告警的事件单占比 符合过滤条件有相关告警的事件数/符合过滤条件总的事件数 天/月 百分比 变更数量 变更管理 统计变更单的数量趋势 选择时间周期内,所有变更单的数量 天/月 个 服务SLO SLO管理 统计服务SLO实际值的变化趋势 SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100% 天/月 百分比 风险冒泡 变更导致事件数 事件管理 统计变更问题引发事件单数量 事件类型为变更操作问题的事件单数量 天/月 个 7天紧急告警数 告警中心 统计近7天紧急告警数量 近7天的紧急告警数量 近7天 个 P3+事件 事件管理 统计发生的P3+事件单数量 P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单 天/月 个 Warroom数量 告警中心 统计Warroom数量 选择时间周期内,WarRoom的数量 天/月 个 PRR评审汇总 PRR评审服务 PRR评审 统计参与PRR评审的服务数量 参与PRR评审的服务数量 天/月 个 PRR评审通过情况 PRR评审 统计在PRR各阶段中,通过与未通过的服务数量 PRR各阶段,通过与未通过的服务数量 天/月 个 TOP5事件 TOP5事件 事件管理 统计严重性最高的事件Top5 根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件 天/月 事件信息
  • 操作步骤 登录COC。 进入COC“总览”后,可以查看对应的资源信息。 图1 资源信息 打开全局视角,查看所有region的资源信息。 单击图标上的,查询对应资源类型的全部资源信息。 全局视角下,单击图标上的,查询不同region对应资源类型的全部资源信息。 图2 不同region下,资源列表 鼠标移动到含有告警的资源上,查看对应机器告警。 图3 告警信息 单击“查看更多”查看更多告警。 图4 更多告警信息 点击右上角“刷新”,同步资源与告警信息。
  • 前提条件 开通组织服务,请参见开通组织服务。 图1 开通组织服务 只有企业中心的企业主账号的权限才能创建组织,非企业账号不支持使用Organizations。 企业中心创建组织后,需要在Organizations重新授权,即可访问组织所有功能。 组织开通之后,跳转到组织管理页面,按照以下步骤创建组织: 1. 组织管理员需要创建一个组织,一个账号只能有一个组织; 2. 成员账号看不到除了控制面板外的东西; 3. 成员账号也必须是企业级账号; 授权COC为可信服务,请参见授权为可信服务。 图2 授权为可信服务 该账号为管理员或者委托管理员,如果不是请参照添加委托管理员章节的内容。 图3 添加委托管理员
  • 概述 云运维中心服务具备安全可靠的跨账号数据汇聚和资源运维能力,如果您的账号由组织管理,您可以在云运维中心对组织内所有成员账号进行统一的资源管理、自动化运维以及运维 态势感知 ,而无需逐个登录到成员账号。 通过COC对组织成员账号进行跨账号管理需要执行以下操作(以A账号管理B账号为例): 如果A账号是组织管理员,则跳过此步骤。如果A账号不是组织管理员,则由组织管理员将A账号添加为委托管理员,相关操作请参见添加委托管理员。 管理员可以添加或者取消成员的委托管理员权限,组织成员架构变动时需要1-2分钟后刷新页面才能生效。 由组织管理员或委托管理员邀请B账号加入组织,相关操作请参见邀请账号加入组织。 B账号加入组织后,登录A账号在COC服务“运维态势感知”、”资源管理”、”作业管理”页面可对B账号进行跨账号运维管理。 有关组织的详细说明请参见《组织用户指南》。 为了请求B账号下的数据资产信息,COC会自动在B账号中创建服务关联委托: 该委托是云服务委托,“委托权限”为“COCAssumeServiceLinkedAgencyPolicy”,“委托名称”为“ServiceLinkedAgencyForCOC”。 删除B账号时,COC会自动删除B账号内的服务关联委托。
共100000条