云服务器内容精选

  • 方式一 登录 AOM 华为云官网。 在AOM产品简介下方单击“AOM2.0控制台”,即可进入AOM 2.0服务页面。 图1 登录AOM官网 在弹出的“通知”对话框中仔细阅读从AOM 1.0切换到AOM 2.0计费方式变化的说明。 单击“授权”,然后在“云服务授权”页面中仔细阅读授权声明后,勾选“我已阅读并同意授权声明”。 单击“免费开通服务并授权”,即可免费开通AOM 2.0服务。 在页面左侧导航栏单击任意一个功能名称,如“仪表盘”,可进入该功能的操作界面。
  • 操作流程 开通AOM 2.0并授权。 容器监控:在云容器引擎 CCE购买集群和节点后,自动安装ICAgent插件,将CCE集群指标上报到AOM,用户无需手动接入。 配置告警行动规则:通过创建告警行动规则关联 SMN 主题与消息模板,当CCE的指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 配置告警:通过创建告警规则对CCE的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。
  • 首次开通AOM 2.0并授权 注册账号并实名认证。 使用AOM 2.0前,需要先注册一个华为账号并进行实名认证。如果您已有一个华为账号,可直接跳过如下操作。 进入华为云官网,单击页面右上角的“注册”。 参考 注册华为账号 并开通华为云中操作,完成注册。 注册后参考实名认证完成个人或企业账号实名认证。 开通AOM 2.0。 使用AOM 2.0前,需要先开通AOM 2.0。如果您已开通AOM 2.0,可直接跳过如下操作。 登录AOM华为云官网。 在AOM产品简介下方单击“AOM2.0控制台”,进入AOM 2.0服务页面。 在弹出的“通知”对话框中仔细阅读从AOM 1.0切换到AOM 2.0计费方式变化的说明。 单击“授权”,然后在“云服务授权”页面中仔细阅读授权声明后,勾选“我已阅读并同意授权声明”。 单击“免费开通服务并授权”,即可免费开通AOM 2.0服务。 为用户添加 应用运维管理 AOM和云容器引擎CCE的操作权限。 您需要有AOM的管理员权限“AOM FullAccess”和CCE的管理员权限“CCE FullAccess”,具体操作请参考创建用户并授权使用AOM和集群权限( IAM 授权)。
  • 配置告警行动规则 在“总览”页面切换为“应用视角”。 在快速入门区域,单击“配置告警行动规则”,进入“告警行动规则”页面。 在“告警行动规则”页签下,单击“创建告警行动规则”。 设置行动规则名称、类型等信息,参数说明如表8所示。 图11 创建告警行动规则 表8 告警行动规则参数说明 参数名称 说明 行动规则名称 行动规则的名称,只能由中文、数字、字母、下划线和中划线组成,且不能以下划线或中划线开头和结尾,最多可输入200个字符。 企业项目 所属的企业项目。 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。 如果在全局页面已选择企业项目,则此处灰化不可选。 描述 行动规则的描述信息,最多可输入1024个字符。 行动规则类型 行动规则的类型。 指标或事件 当指标或事件满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 日志 当日志数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 行动方式 告警行动规则与SMN主题、消息模板关联的类型,请从下拉列表中选择。当前只支持“通知”类型。 主题 SMN主题,请从下拉列表中选择。 若没有合适的主题,请单击主题选择栏下方“创建主题”,在SMN界面创建。 消息模板 通知消息的模板,请从下列列表中选择。 若没有合适的消息模板,请单击消息模板选择栏右侧“创建消息模板”,新建消息模板。 设置完成后,单击“确定”。
  • 创建应用 登录AOM 2.0控制台。 在左侧导航栏单击“概览”,即可进入“概览”页面。 在“概览”页面切换为“应用视角”。 图1 切换视角 在快速入门区域,单击“创建应用”,进入“应用管理”页面。 创建应用。 单击右上角的“创建应用”,在弹出的“创建应用”页面中,设置创建应用的相关参数。 图2 创建应用 表1 创建应用参数说明 参数名称 说明 唯一标识 应用的唯一标识。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线和点组成。 应用名称 应用的名称。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。 企业项目 华为云企业项目,请从下列列表中选择。 如果现有的项目无法满足需求,可单击“创建项目”添加。 描述 应用的描述信息,最多可输入255个字符。 设置完成后,单击“确认”。 为创建的应用添加节点,包括组件和子应用。有以下两种方式: 应用创建完成后,单击“继续创建应用树节点”。 图3 创建子应用 在左侧导航栏中选择“应用管理”,进入“应用管理”页面。在左侧树节点的应用名称后,单击。 图4 应用树 配置节点信息,设置子节点类型和名称等信息。 图5 添加节点 表2 节点设置参数说明 参数类别 参数名称 说明 组件设置相关参数 组件名称 组件的名称。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。 描述 组件的描述信息,最多可输入255个字符。 子应用设置相关参数 唯一标识 子应用的唯一标识。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线和点组成。 子应用名称 子应用的名称。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。 描述 子应用的描述信息,最多可输入255个字符。 同一个应用下,最多可创建3层子应用。 同一个应用下,最多可创建50个子应用。 同一个应用下,最多可创建50个组件。 设置完成后,单击“确认”。 根据主机、区域等信息为组件添加不同的环境,方便统一管理各资源或应用。 在左侧树节点,将光标移至待操作的组件名称后,单击。 在“添加环境”页面中,设置环境类型、主机类型等信息。 图6 添加环境 表3 添加环境 参数名称 说明 环境类型 环境的类型。目前支持环境类型有四种:开发、测试、预发布和生产。 主机类型 主机的类型。目前支持的主机类型有:LINUX和WINDOWS。 环境名称 环境的名称。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。 区域 环境的区域,请从下拉列表中选择。 描述 环境的描述信息,最多可输入255个字符。 同一组件下最多可创建20个环境。 设置完成后,单击“确认”。 为组件创建对应环境后,即可为环境关联相关资源实例,后续可通过应用监控功能实时监控资源的使用情况。 在右侧选择需要的资源类型,建立应用与资源关联。 在左侧树节点选中待操作的环境,在右侧区域单击资源页签,在下方列表区域单击“关联资源”。 从资源列表中选择合适的资源实例。 资源列表仅展示与应用企业项目相同的资源。 图7 关联资源 设置完成后,单击“关联”。 如果关联的资源为 云服务器ECS 资源,需要单击“关联资源&安装Agent”,在关联资源后继续完成Agent安装。安装Agent的详情操作请参见安装UniAgent。
  • AOM控制台功能依赖的角色或策略 如果IAM用户需要在AOM控制台拥有相应功能的查看或使用权限,请确认已经对该用户所在的用户组设置了AOM FullAccess或AOM ReadOnlyAccess策略的集群权限,再按如下表7增加依赖服务的角色或策略。 用户首次开通AOM服务,AOM会为其创建服务委托,用户除需授权AOM FullAccess外,还需要授予Security Administrator。 表7 AOM控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 工作负载 集群监控 Prometheus for CCE 云容器引擎 CCE 如果使用Prometheus for CCE、工作负载监控和集群监控,需要设置CCE FullAccess权限。 数据订阅 分布式消息服务Kafka版 如果使用数据订阅功能,需要设置DMS ReadOnlyAccess权限。
  • 细粒度权限说明 使用自定义细粒度策略,请使用管理员用户进入 统一身份认证 (IAM)服务,按需选择AOM的细粒度权限进行授权操作。AOM细粒度权限说明请参见表6。 表6 AOM细粒度权限说明 权限名称 权限描述 权限依赖 应用场景 cms:workflow:create 创建任务 ecs:cloudServers:list ecs:cloudServers:listServerInterfaces rds:instance:list 创建任务 cms:workflow:update 更新任务 functiongraph:function:create functiongraph:function:updateCode 更新任务 cms:workflow:list 获取任务列表 无 查询任务列表 cms:execution:get 获取任务执行信息 查询执行详情 cms:execution:create 执行任务 functiongraph:function:create functiongraph:function:invoke functiongraph:function:list 执行任务,如执行脚本,作业,安装和卸载文件包等 cms:template:get 获取模板信息 无 查询模板详情,查询作业执行方案详情 cms:template:list 获取模板列表 查询作业执行方案列表,查询可用于创建任务的模板列表 cms:script:get 查询脚本信息 查询脚本详情 cms:script:list 查询脚本列表 查询脚本列表 cms:job:list 查询作业列表 查询作业列表 aom:cmdbApplication:get 获取应用详情 无 根据应用ID获取应用详情、根据应用名称获取应用详情 aom:cmdbApplication:update 修改应用 修改应用 aom:cmdbApplication:delete 删除应用 删除应用 aom:cmdbApplication:get 获取应用详情 获取应用详情 aom:cmdbComponent:get 查询组件详情 根据组件ID查询组件详情、根据组件名称查询组件详情 aom:cmdbComponent:create 新增组件 新增组件 aom:cmdbComponent:update 更新组件 更新组件 aom:cmdbComponent:delete 删除组件 删除组件 aom:cmdbComponent:move 转移组件 转移组件 aom:cmdbComponent:list 查询组件列表 查询组件列表 aom:cmdbEnvironment:create 创建环境 创建环境 aom:cmdbEnvironment:update 修改环境 修改环境 aom:cmdbEnvironment:get 获取环境详情 根据环境ID获取环境详情、根据环境名称Region和组件ID获取环境详情 aom:cmdbEnvironment:delete 删除环境 删除环境 aom:cmdbSubApplication:get 查询子应用详情 查询子应用详情 aom:cmdbSubApplication:update 修改子应用 修改子应用 aom:cmdbSubApplication:move 转移子应用 转移子应用 aom:cmdbSubApplication:delete 删除子应用 删除子应用 aom:cmdbSubApplication:create 创建子应用 创建子应用 aom:cmdbSubApplication:list 查询子应用列表 查询子应用列表 aom:cmdbResources:unbind 解绑资源 解绑资源 aom:cmdbResources:bind 绑定资源 绑定资源 aom:cmdbResources:move 转移资源 转移资源 aom:cmdbResources:get 查询资源详情 查询资源详情 aom:alarm:put 上报告警 无 上报自定义告警 aom:event2AlarmRule:create 新增一条事件类告警规则 新增一条事件类告警规则 aom:event2AlarmRule:set 更新事件类告警规则 更新事件类告警规则 aom:event2AlarmRule:delete 删除事件类告警规则 删除事件类告警规则 aom:event2AlarmRule:list 查询全部事件类告警规则 查询全部事件类告警规则 aom:actionRule:create 新增告警行动规则 新增告警行动规则 aom:actionRule:delete 删除告警行动规则 删除告警行动规则 aom:actionRule:list 获取告警行动规则列表 获取告警行动规则列表 aom:actionRule:update 修改告警行动规则 修改告警行动规则 aom:actionRule:get 通过规则名称获取告警行动规则 通过规则名称获取告警行动规则 aom:alarm:list 获取告警发送结果 获取告警发送结果 aom:alarmRule:create 创建阈值规则 创建阈值规则 aom:alarmRule:set 修改阈值规则 修改阈值规则 aom:alarmRule:get 查询阈值规则 根据ID查询单个阈值规则或者查询所有阈值规则 aom:alarmRule:delete 删除阈值规则 批量删除阈值规则或者根据ID删除单个阈值规则 aom:discoveryRule:list 查看应用发现规则 查询系统中已有应用发现规则 aom:discoveryRule:delete 删除应用发现规则 删除应用发现规则 aom:discoveryRule:set 添加应用发现规则 添加应用发现规则 aom:metric:list 查询时间序列 查询时间序列 aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 aom:muteRule:delete 删除静默规则 无 删除静默规则 aom:muteRule:create 新增静默规则 新增静默规则 aom:muteRule:update 修改静默规则 修改静默规则 aom:muteRule:list 获取静默规则列表 获取静默规则列表
  • 采集管理常用操作与系统权限 表5列出了采集管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表5 采集管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询代理区域 √ √ 编辑代理区域 √ x 删除代理区域 √ x 新建代理区域 √ x 查询某代理区域内所有的代理机 √ √ 查询全部代理区域 √ √ 安装Agent结果详情 √ √ 获取对应主机的安装命令 √ √ 获取对应主机的心跳及和server的连接状况 √ √ 批量卸载运行中的Agent √ x 查询Agent首页 √ √ 测试安装机和目标机的连通性 √ x 批量导入安装Agent √ x 获取Agent最近一次操作的执行日志相关信息 √ √ 获取Agent安装时可选择的版本列表 √ √ 获取当前项目ID下所有Agent版本号列表 √ √ 删除多条Agent主机 √ x 根据ecs_id查询Agent信息 √ √ 删除单条Agent主机 √ x 设置安装机 √ x 重置安装机参数 √ x 查询当前登录用户的项目能够被设置成安装机的列表 √ √ 查询Agent安装机列表 √ √ 删除安装机 √ x 批量升级Agent √ x 查询历史任务详情日志 √ √ 查询历史任务详情 √ √ 查询全部历史任务 √ √ 获取所有种类的执行状态和任务类型 √ √ 获取历史任务详情里Agent的执行状态种类 √ √ 编辑代理机 √ x 删除Agent代理主机 √ x 设置代理主机 √ x 查询当前用户能够被设置成代理机的列表 √ √ 批量更新插件 √ x 批量卸载插件 √ x 批量安装插件 √ x 查询插件历史任务详情日志 √ √ 查询插件执行历史记录的分页列表 √ √ 根据任务id,查询插件执行记录详情的分页列表 √ √ 获取历史任务详情里插件的执行状态的种类 √ √ 获取全部插件列表 √ √ 查询插件对应的版本号 √ √ 查询当前支持的插件列表 √ √ 获取租户下CCE集群信息列表 √ √ 获取租户下某个CCE集群下的Agent信息列表 √ √ 给租户下某个CCE集群安装ICAgent √ x 给租户下某个CCE集群升级ICAgent √ x 给租户下某个CCE集群卸载ICAgent √ x 获取CCE集群列表 √ √ 获取ICAgent机器列表 √ √ CCE集群机器安装ICAgent √ x CCE集群机器升级ICAgent √ x CCE集群机器卸载ICAgent √ x
  • 资源监控常用操作与系统权限 表3列出了资源监控常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表3 资源监控常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 创建告警规则 √ x 修改告警规则 √ x 删除告警规则 √ x 创建告警模板 √ x 修改告警模板 √ x 删除告警模板 √ x 创建告警行动规则 √ x 修改告警行动规则 √ x 删除告警行动规则 √ x 创建消息模板 √ x 修改消息模板 √ x 删除消息模板 √ x 创建分组规则 √ x 修改分组规则 √ x 删除分组规则 √ x 创建抑制规则 √ x 修改抑制规则 √ x 删除抑制规则 √ x 创建静默规则 √ x 修改静默规则 √ x 删除静默规则 √ x 创建仪表盘 √ x 修改仪表盘 √ x 删除仪表盘 √ x 创建Prometheus实例 √ x 修改Prometheus实例 √ x 删除Prometheus实例 √ x 创建应用发现规则 √ x 修改应用发现规则 √ x 删除应用发现规则 √ x 订阅阈值告警 √ x 配置虚机日志采集路径 √ x
  • 自动化运维常用操作与系统权限 表4列出了自动化运维常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表4 自动化运维常用操作与系统权限的关系 操作 CMS FullAccess CMS ReadOnlyAccess 创建脚本 √ x 编辑脚本 √ x 复制并新建脚本 √ x 编辑版本 √ x 查看脚本下的版本 √ √ 创建文件包 √ x 查看文件包 √ √ 编辑文件包 √ x 查看文件包版本列表 √ √ 修改文件包版本 √ x 删除文件包 √ x 创建任务 √ x 编辑任务 √ x 删除任务 √ x 查看任务列表 √ √ 查看任务详情 √ √ 执行任务 √ x
  • 应用资源管理常用操作与系统权限 表2列出了应用资源管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 应用资源管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询应用详情 √ √ 查询子应用详情 √ √ 查询组件详情 √ √ 查询环境详情 √ √ 查询环境标签 √ √ 查询资源详情 √ √ 新建应用 √ x 更新应用 √ x 删除应用 √ x 新建子应用 √ x 更新子应用 √ x 删除子应用 √ x 转移子应用 √ x 新建组件 √ x 更新组件 √ x 删除组件 √ x 转移组件 √ x 新建环境 √ x 更新环境 √ x 删除环境 √ x 创建环境标签 √ x 更新环境标签 √ x 删除环境标签 √ x 导入资源 √ x 更新资源 √ x 删除资源 √ x 转移资源 √ x 资源同步 √ x 绑定资源 √ x 解绑资源 √ x 开通资源授权 √ x 取消资源授权 √ x 获取应用列表 √ √ 获取子应用列表 √ √ 获取组件列表 √ √ 获取应用下标签列表 √ √ 获取资源列表 √ √ 查询节点拓扑关系 √ √ 查询操作记录 √ √
  • AOM权限 默认情况下,管理员创建的IAM用户没有任何权限,您需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对AOM进行操作。 AOM部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域对应的项目中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问AOM时,需要先切换至授权区域。 根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对E CS 服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分,AOM支持的API授权项请参见策略和授权项说明。 如表1所示,包括了AOM的所有系统权限。 表1 AOM系统权限 子服务名称 策略名称 描述 类别 依赖系统权限 应用资源管理/监控中心/采集管理 AOM FullAccess AOM2.0管理员权限,拥有该权限的用户可以操作并使用AOM。 系统策略 CCE FullAccess、DMS ReadOnlyAccess AOM ReadOnlyAccess AOM2.0只读权限,拥有该权限的用户仅能查看AOM数据。 系统策略 CCE ReadOnlyAccess、DMS ReadOnlyAccess 自动化运维 CMS FullAccess 自动化运维管理员权限,拥有该权限的用户可以操作并使用自动化运维。 系统策略 - CMS ReadOnlyAccess 自动化运维只读权限,拥有该权限的用户仅能查看自动化运维数据。 系统策略
  • 基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无 flink_jobmanager_Status_JVM_CPU_Time jobmanager中JVM使用的CPU时间。 无 flink_jobmanager_Status_ProcessTree_CPU_Usage JobManager 中JVM的CPU使用率。 无 flink_taskmanager_Status_JVM_CPU_Load TaskManager 中JVM的CPU负载。 无 flink_taskmanager_Status_JVM_CPU_Time TaskManager中JVM使用的CPU时间。 无 flink_taskmanager_Status_ProcessTree_CPU_Usage TaskManager 中的JVM的CPU使用率。 无 Memory flink_jobmanager_Status_JVM_Memory_Heap_Used JobManager的堆内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Committed 保证JobManager的JVM可用的堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Max JobManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Used JobManager的堆外内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Committed 保证JobManager的JVM可用的堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Max JobManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Used JobManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Committed JobManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Max JobManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_Count JobManager direct缓冲池中的缓冲区数。 无 flink_jobmanager_Status_JVM_Memory_Direct_MemoryUsed JobManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_TotalCapacity JobManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_Count JobManager中mapped缓冲池中的缓冲区个数。 无 flink_jobmanager_Status_JVM_Memory_Mapped_MemoryUsed JobManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_TotalCapacity JobManager中mapped缓冲池中所有缓冲区的总容量 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Used JobManager中已使用的托管内存量。 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Total JobManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Used TaskManager的堆内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Committed 保证TaskManager的JVM可用的堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Max TaskManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Used TaskManager的堆外内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Committed 保证TaskManager的JVM可用的堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Max TaskManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Used TaskManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Committed TaskManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Max TaskManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_Count TaskManager direct缓冲池中的缓冲区数。 无 flink_taskmanager_Status_JVM_Memory_Direct_MemoryUsed TaskManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_TotalCapacity TaskManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_Count TaskManager中mapped缓冲池中的缓冲区个数。 无 flink_taskmanager_Status_JVM_Memory_Mapped_MemoryUsed TaskManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_TotalCapacity TaskManager中mapped缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Used TaskManager中已使用的托管内存量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Total TaskManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_ProcessTree_Memory_RSS 通过Linux获取整个进程的内存。 字节(Byte) Threads flink_jobmanager_Status_JVM_Threads_Count JobManager中活动的线程总数。 个 flink_taskmanager_Status_JVM_Threads_Count TaskManager中活动中的线程总数。 个 GarbageCollection flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count JobManager CMS垃圾回收器的回收次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time JobManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count JobManager GC次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time JobManager每次GC时间。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count TaskManager CMS垃圾回收器的回收次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time TaskManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count TaskManager GC次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time TaskManager每次GC时间。 毫秒(ms) ClassLoader flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded JobManager自JVM启动以来加载的类的总数。 无 flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded JobManager自JVM启动以来卸载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded TaskManager自JVM启动以来加载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded TaskManager自JVM启动以来卸载的类的总数。 无 Network flink_taskmanager_Status_Network_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Network_TotalMemorySegments TaskManager中分配的内存segments的总数。 无 Default shuffle service flink_taskmanager_Status_Shuffle_Netty_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_UsedMemorySegments TaskManager已使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_TotalMemorySegments TaskManager分配的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_AvailableMemory TaskManager中未使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_UsedMemory TaskManager中已使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_TotalMemory TaskManager中分配的内存量。 字节(Byte) Availability flink_jobmanager_job_numRestarts 自作业提交以来的重新启动总数。 次 Checkpointing flink_jobmanager_job_lastCheckpointDuration 完成最新checkpoint所用的时间 毫秒(ms) flink_jobmanager_job_lastCheckpointSize 最新checkpoint的大小,如果启用了增量检查点或更改日志,则此度量可能与lastCheckpointFullSize不同。 字节(Byte) flink_jobmanager_job_numberOfInProgressCheckpoints 正在进行的checkpoint的数量。 个 flink_jobmanager_job_numberOfCompletedCheckpoints 成功完成的checkpoint的数量。 个 flink_jobmanager_job_numberOfFailedCheckpoints 失败的checkpoint的数量。 个 flink_jobmanager_job_totalNumberOfCheckpoints 所有checkpoint的总数。 个 IO flink_taskmanager_job_task_numBytesOut Task输出的字节总数。 字节(Byte) flink_taskmanager_job_task_numBytesOutPerSecond Task每秒输出的字节总数。 字节/秒(Byte/s) flink_taskmanager_job_task_isBackPressured Task是否反压。 无 flink_taskmanager_job_task_numRecordsIn Task收到的记录总数。 条 flink_taskmanager_job_task_numRecordsInPerSecond Task每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_numBytesIn Task收到的字节数。 字节(Byte) flink_taskmanager_job_task_numBytesInPerSecond Task每秒收到的字节数。 字节/秒(Byte/s) flink_taskmanager_job_task_numRecordsOut Task发出的记录总数。 条 flink_taskmanager_job_task_numRecordsOutPerSecond Task每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsIn Operator收到的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsInPerSecond Operator每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsOut Operator发出的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsOutPerSecond Operator每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_sourceIdleTime Source 闲置时长。 毫秒(ms) flink_taskmanager_job_task_operator_source_numRecordsIn source收到的记录总数。 条 flink_taskmanager_job_task_operator_sink_numRecordsOut Sink端输出记录总数。 条 flink_taskmanager_job_task_operator_source_numRecordsInPerSecond 数据源Source端每秒输入的记录数。 条/秒 flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond 数据目的Sink端每秒输出的记录数。 条/秒 kafka connector flink_taskmanager_job_task_operator_currentEmitEventTimeLag 数据的事件时间与数据离开 Source 时的间隔 毫秒(ms) flink_taskmanager_job_task_operator_currentFetchEventTimeLag 数据的事件时间与数据进入Source的时间间隔 毫秒(ms) flink_taskmanager_job_task_operator_pendingRecords 尚未被 Source 拉取的数据数量 条 父主题: 指标总览
  • 与AOM 1.0对比 AOM 2.0基于AOM 1.0原有功能,结合用户常用的应用监控,增加了多种指标和日志数据的采集与监控,并对监控结果可视化呈现。同时,通过自动化运维功能将日常运维操作服务化、自动化,减少运维人员重复性操作。 本章节主要对比AOM 2.0与AOM 1.0版本的功能特性。 表1 AOM 2.0与AOM 1.0版本的功能特性对比 功能项 功能项说明 AOM 1.0 AOM 2.0 应用资源管理 资源检索 提供应用、主机等资源的检索功能,支持通过ID、关键字、名称等方式快速检索资源。 不支持 支持 应用管理 管理云服务对象与应用之间的关系,遵循“应用 + 子应用(可选)+ 组件 + 环境”的应用管理模型。 资源管理 全局查看所有的云服务资源对象与应用的关联关系,便于用户对资源进行分析和管理。 环境标签 为已创建的应用环境添加标签,便于用户快速过滤和查找相同属性的应用环境。 资源监控 接入中心 快速接入需要监控的业务层、应用层、中间件层、基础设施层指标。 不支持 支持 仪表盘 将不同图表展示到同一个屏幕上,通过多种图表形式展示资源的指标、日志和性能数据。 部分支持 只支持指标数据和系统性能数据的可视化监控,不支持日志数据的监控。 支持 告警管理 对服务设置事件条件或者对资源的指标设置阈值条件,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,将告警信息以邮件、短信、企业微信等方式发送给指定的人员。 部分支持 只支持按指标类型和Prometheus命令创建指标告警规则,不支持按全量指标创建。 支持 应用洞察 基于CMDB模型,从应用、组件到环境对资源健康状态分层监控。 部分支持 不支持基于CMDB模型,对指标数据分层监控。 支持 容器洞察 从工作负载和集群2个维度监控CCE的资源使用、状态和告警等信息,以便快速响应,保证工作负载顺畅运行。 支持 支持 指标浏览 实时监控日志数据和各资源的指标数据及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看业务及分析数据关联分析。 部分支持 只支持监控分析指标数据,不支持监控分析日志数据。 支持 基础设施监控 实时监控主机和云服务运行状态和虚机CPU、内存、磁盘等信息。 支持 支持 Prometheus监控 全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,可灵活扩展云原生组件指标插件。 不支持 支持 业务监控 将ELB上报到LTS的日志数据提取为指标来统一管理,便于后续在指标浏览、仪表盘界面实时监控。 不支持 支持 日志分析 通过日志接入和日志搜索功能帮您快速在海量日志中查询到所需的日志,还可通过分析日志的来源信息和上下文原始数据快速定位问题。 支持 支持 进程监控 通过配置应用发现规则发现和收集主机上部署的应用和关联的指标,并支持从应用下钻到组件,从组件下钻到实例,从实例下钻到容器。通过各层状态,完成对应用或组件的立体监控。 支持 支持 数据订阅 支持用户订阅指标或者告警信息,订阅后可以将数据转发到用户配置的kafka或DMS的Topic中,供消费者消费转发的订阅的信息。 支持 支持 采集管理 通过UniAgent调度采集任务对数据进行采集。目前UniAgent安装支持两种方式:手动安装和自动安装。 不支持 支持 自动化运维 服务场景 提供不同任务类型,并且可以对各原子服务场景卡片进行管理。 不支持 支持 定时运维 提供创建定时任务等功能,并展示定时任务的执行记录。 任务管理 提供执行任务等功能,并展示所有任务的执行记录。 参数库 提供创建参数等功能,并展示现有所有参数信息。 作业管理 提供创建作业等功能,并支持对作业进行管理。 脚本管理 提供创建脚本等功能,并支持对脚本进行版本管理。 文件管理 提供创建文件包等功能,并支持对文件包进行版本管理。 随着AOM 1.0相关功能逐步被AOM 2.0全面取代,AOM 1.0后续会逐步下线,建议用户将AOM 1.0升级到AOM 2.0版本,升级的相关操作请参见升级AOM。
  • 查看采集任务 Node Exporter安装完成后,您还可以在“ECS Node Exporter”弹框中的“采集任务”页签执行表1中的操作。 表1 相关操作 操作 说明 搜索采集任务 支持按采集任务、采集状态、主机IP、主机名称搜索采集任务。 刷新采集任务 在采集任务列表右上角单击,可实时获取所有最新的采集任务。 删除采集任务 单击采集任务列表“操作”列的删除。 启停采集任务 在采集任务列表开启/关闭该采集任务的“任务启停”列的开关。