云服务器内容精选

  • 解决方案 一站式使用应用平台流程如图1所示。 图1 使用流程 表1 使用流程详解 序号 流程环节 说明 1 准备工作 将应用接入AppStage前需要依次完成申请公测、购买AppStage、关联组织、配置AppStage各中心服务授权、添加组织的部门/成员信息、录入产品/服务/微服务信息和申请权限。 2 应用开发 配置开发团队及服务扩展信息 添加开发中心用户 开发中心的用户数根据购买规格有相应的用户数量限制,组织管理员通过用户的添加或删除来合理管理开发中心的使用人员。 创建团队 在开发中心进行服务开发前,需要组织管理员先创建一个团队,将团队关联需要开发的服务。 服务配置 将团队关联服务后,还需将团队关联的服务关联CodeArts项目,后续的服务开发管理过程中才能正常使用CodeArts服务的代码托管、流水线、编译构建功能。 添加团队成员 在团队多用户协作开发过程中,不同角色成员执行各自权限和责任事项,因此需要在团队中添加协作开发的各角色成员(项目经理、开发人员、测试人员等),实现统一有序的成员信息管理。 创建及规划版本 创建版本 对团队所关联的服务划分版本,包括创建版本的基本配置信息以及选择版本开始和结束时间。 规划交付件 在版本开发启动初期对产品开发过程所需的交付件进行规划,以辅助开发过程规范有序且可追溯。 开发版本 创建代码仓 使用代码托管内置的仓库模板创建代码管理的仓库。 下载代码 基于Git的 代码托管服务 ,支持将仓库文件下载到本地进行文件的操作。 安装插件 开发人员可下载所需的开发工具,如WiseStudio 插件、Nuwa 插件、Wushan 插件后进行安装。 开发代码 开发代码的详细指导请参见《开发指南》。 提交代码到代码仓 开发在本地完成业务代码后,需要提交代码文件至代码仓库。 代码安全检视 进行安全编码TOP问题的信息统计和检查结果录入。 管理交付件 管理版本开发过程不同阶段所需或交付的必要文档,保证版本开发过程阶段性成果沉淀以及过程可追溯。 构建版本 根据需要的场景,如开发测试环境应用部署、生产环境应用部署等,对这些自动化任务进行自定义编排,一次配置后就可以一键自动化触发调度执行。 测试版本 对于版本测试过程发现的缺陷进行记录、跟踪、分析和解决,包括管理版本缺陷、管理测试结论以及管理关键风险等。 编辑总体测试结论、系统预置的测试类型结论,新增和管理自定义测试类型的测试结论,以及新增和管理版本关键风险问题。 发布版本 待版本开发及编译构建完成,且发布准入检查项均通过后,可由开发人员、测试人员或项目经理提交标准发布申请,待项目经理审批通过后,将软件发布到对应的部署平台。 3 应用部署 服务环境配置 使用AppStage运维中心前需要先准备环境并为服务关联区域、账号和企业项目。 申请资源 应用部署需要使用虚拟机、CCE、数据库等相关资源,您可以申请资源,或者在华为云购买资源后,将资源接入AppStage。 更新环境 开发完成的应用软件包,通过流水线发布,可以发布至运维中心的部署服务中,使用部署服务完成应用部署。 4 应用运维 数据接入 虚拟机日志接入 支持通过部署filebeat完成虚拟机日志采集。日志接入后,可以对日志进行检索,查看已接入日志,具体操作请参见日志检索。 容器日志接入 支持将容器日志接入AppStage运维中心。 日志接入后,可以对日志进行检索,查看已接入日志,具体操作请参见日志检索。 主机监控接入 支持定义服务的监控模板,然后通过为主机绑定监控模板,采集主机监控数据。 CES 指标接入 支持将 云监控服务 CES采集的监控指标数据接入至AppStage运维中心,如需将CES生成的告警接入AppStage运维中心,可参考CES告警接入操作。 运维监控 指标开发 对已产生或接入的数据进行指标开发 监控报表开发 对已创建的指标或视图数据进行业务报表开发。配置后可以查看业务报表监控,具体操作请参见查看业务报表。 告警配置 支持对虚拟机监控数据或业务数据配置告警,及时掌握虚拟机状态,容器接入并安装监控插件后会自动生成告警。告警配置后可以查看告警,并及时处理告警问题,具体操作请参见查看告警。
  • 背景信息 应用平台以“应用”为中心,基于云原生技术,打造了覆盖应用开发、托管、运维全生命周期支持的应用平台,面向企业IT应用、移动应用等提供一站式、集成式的云原生应用服务能力,支持开箱即用,全流程规范可视,高效异地协作,是沉淀行业通用能力,结合华为优秀实践,为产业上云及行业SaaS构建的竞争力底座。 开发应用主要使用AppStage的开发中心,其深度集成CodeArts的功能,购买AppStage后需开通CodeArts后才能使用开发中心,请在AppStage购买页面根据页面提示,前往开通CodeArts地址进行开通。
  • 查看监控指标数据 以采集弹性云服务器的监控指标为例,查看弹性云服务器对应的命名空间、指标ID、维度的Key和Value。 在支持监控的服务列表页面查看对应的监控指标参考文档。 在参考文档中查看命名空间,弹性云服务器对应的命名空间为“SYS.E CS ”。 查看监控指标的指标ID和测量对象(维度),例如监控指标CPU使用率的指标ID为“cpu_util”,测量对象为“云服务器”。 查看维度的Key和Value,云服务器维度的Key和Value分别为instance_id和云服务器ID。
  • 解决方法 待查看日志的主机未安装ICAgent ServiceStage的日志查看能力是由 AOM 服务提供的。主机是否安装ICAgent是使用AOM的日志能力的前提,否则将无法查看ServiceStage的日志。ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。 如何为待查看日志的主机安装ICAgent,请参考安装ICAgent。 用户业务日志输出位置为非标准位置 由于用户配置了日志策略,导致用户程序业务日志未输出到标准的输出位置。需参考如下方法进行排查处理: 虚拟机部署 排查配置的日志策略,是否把用户程序业务日志输出位置写到ServiceStage默认指定的虚拟机日志目录(/var/log/application/${组件名}-${环境名}-${随机字符串}/${版本号}/${实例ID}/start_app.log)外的其他目录。 请查询业务代码,对日志策略进行调整。 容器部署 排查配置的日志策略,是否把业务日志输出到出标准输出外的其他地方。请参考设置应用日志策略进行相关配置。
  • 约束限制 目前仅X86版本 堡垒机 支持应用运维,Arm版本堡垒机不支持应用运维。 应用运维仅支持通过Web浏览器方式登录进行运维。 支持复制/粘贴大量字符不乱码,本地到远端最多8万字符,远端到本地最多100万字节。 文件管理 不支持批量编辑文件或文件夹。 文件传输 系统默认支持上传最大100G的单个文件,但实际上传单个文件大小,受“个人网盘空间”大小和使用浏览器限制。 空间不足会导致上传失败,需清理磁盘或扩充磁盘容量。 不支持下载文件夹。 应用运维的目标地址只有“主机网盘”。
  • AOM控制台功能依赖的角色或策略 如果 IAM 用户需要在AOM控制台拥有相应功能的查看或使用权限,请确认已经对该用户所在的用户组设置了AOM FullAccess或AOM ReadOnlyAccess策略的集群权限,再按如下表7增加依赖服务的角色或策略。 用户首次开通AOM服务,AOM会为其创建服务委托,用户除需授权AOM FullAccess外,还需要授予Security Administrator。 表7 AOM控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 工作负载 集群监控 Prometheus for CCE 云容器引擎 CCE 如果使用Prometheus for CCE、工作负载监控和集群监控,需要设置CCE FullAccess权限。 数据订阅 分布式消息服务Kafka版 如果使用数据订阅功能,需要设置DMS ReadOnlyAccess权限。
  • 细粒度权限说明 使用自定义细粒度策略,请使用管理员用户进入 统一身份认证 (IAM)服务,按需选择AOM的细粒度权限进行授权操作。AOM细粒度权限说明请参见表6。 表6 AOM细粒度权限说明 权限名称 权限描述 权限依赖 应用场景 cms:workflow:create 创建任务 ecs:cloudServers:list ecs:cloudServers:listServerInterfaces rds:instance:list 创建任务 cms:workflow:update 更新任务 functiongraph:function:create functiongraph:function:updateCode 更新任务 cms:workflow:list 获取任务列表 无 查询任务列表 cms:execution:get 获取任务执行信息 查询执行详情 cms:execution:create 执行任务 functiongraph:function:create functiongraph:function:invoke functiongraph:function:list 执行任务,如执行脚本,作业,安装和卸载文件包等 cms:template:get 获取模板信息 无 查询模板详情,查询作业执行方案详情 cms:template:list 获取模板列表 查询作业执行方案列表,查询可用于创建任务的模板列表 cms:script:get 查询脚本信息 查询脚本详情 cms:script:list 查询脚本列表 查询脚本列表 cms:job:list 查询作业列表 查询作业列表 aom:cmdbApplication:get 获取应用详情 无 根据应用ID获取应用详情、根据应用名称获取应用详情 aom:cmdbApplication:update 修改应用 修改应用 aom:cmdbApplication:delete 删除应用 删除应用 aom:cmdbApplication:get 获取应用详情 获取应用详情 aom:cmdbComponent:get 查询组件详情 根据组件ID查询组件详情、根据组件名称查询组件详情 aom:cmdbComponent:create 新增组件 新增组件 aom:cmdbComponent:update 更新组件 更新组件 aom:cmdbComponent:delete 删除组件 删除组件 aom:cmdbComponent:move 转移组件 转移组件 aom:cmdbComponent:list 查询组件列表 查询组件列表 aom:cmdbEnvironment:create 创建环境 创建环境 aom:cmdbEnvironment:update 修改环境 修改环境 aom:cmdbEnvironment:get 获取环境详情 根据环境ID获取环境详情、根据环境名称Region和组件ID获取环境详情 aom:cmdbEnvironment:delete 删除环境 删除环境 aom:cmdbSubApplication:get 查询子应用详情 查询子应用详情 aom:cmdbSubApplication:update 修改子应用 修改子应用 aom:cmdbSubApplication:move 转移子应用 转移子应用 aom:cmdbSubApplication:delete 删除子应用 删除子应用 aom:cmdbSubApplication:create 创建子应用 创建子应用 aom:cmdbSubApplication:list 查询子应用列表 查询子应用列表 aom:cmdbResources:unbind 解绑资源 解绑资源 aom:cmdbResources:bind 绑定资源 绑定资源 aom:cmdbResources:move 转移资源 转移资源 aom:cmdbResources:get 查询资源详情 查询资源详情 aom:alarm:put 上报告警 无 上报自定义告警 aom:event2AlarmRule:create 新增一条事件类告警规则 新增一条事件类告警规则 aom:event2AlarmRule:set 更新事件类告警规则 更新事件类告警规则 aom:event2AlarmRule:delete 删除事件类告警规则 删除事件类告警规则 aom:event2AlarmRule:list 查询全部事件类告警规则 查询全部事件类告警规则 aom:actionRule:create 新增告警行动规则 新增告警行动规则 aom:actionRule:delete 删除告警行动规则 删除告警行动规则 aom:actionRule:list 获取告警行动规则列表 获取告警行动规则列表 aom:actionRule:update 修改告警行动规则 修改告警行动规则 aom:actionRule:get 通过规则名称获取告警行动规则 通过规则名称获取告警行动规则 aom:alarm:list 获取告警发送结果 获取告警发送结果 aom:alarmRule:create 创建阈值规则 创建阈值规则 aom:alarmRule:set 修改阈值规则 修改阈值规则 aom:alarmRule:get 查询阈值规则 根据ID查询单个阈值规则或者查询所有阈值规则 aom:alarmRule:delete 删除阈值规则 批量删除阈值规则或者根据ID删除单个阈值规则 aom:discoveryRule:list 查看应用发现规则 查询系统中已有应用发现规则 aom:discoveryRule:delete 删除应用发现规则 删除应用发现规则 aom:discoveryRule:set 添加应用发现规则 添加应用发现规则 aom:metric:list 查询时间序列 查询时间序列 aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 aom:muteRule:delete 删除静默规则 无 删除静默规则 aom:muteRule:create 新增静默规则 新增静默规则 aom:muteRule:update 修改静默规则 修改静默规则 aom:muteRule:list 获取静默规则列表 获取静默规则列表
  • 采集管理常用操作与系统权限 表5列出了采集管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表5 采集管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询代理区域 √ √ 编辑代理区域 √ x 删除代理区域 √ x 新建代理区域 √ x 查询某代理区域内所有的代理机 √ √ 查询全部代理区域 √ √ 安装Agent结果详情 √ √ 获取对应主机的安装命令 √ √ 获取对应主机的心跳及和server的连接状况 √ √ 批量卸载运行中的Agent √ x 查询Agent首页 √ √ 测试安装机和目标机的连通性 √ x 批量导入安装Agent √ x 获取Agent最近一次操作的执行日志相关信息 √ √ 获取Agent安装时可选择的版本列表 √ √ 获取当前项目ID下所有Agent版本号列表 √ √ 删除多条Agent主机 √ x 根据ecs_id查询Agent信息 √ √ 删除单条Agent主机 √ x 设置安装机 √ x 重置安装机参数 √ x 查询当前登录用户的项目能够被设置成安装机的列表 √ √ 查询Agent安装机列表 √ √ 删除安装机 √ x 批量升级Agent √ x 查询历史任务详情日志 √ √ 查询历史任务详情 √ √ 查询全部历史任务 √ √ 获取所有种类的执行状态和任务类型 √ √ 获取历史任务详情里Agent的执行状态种类 √ √ 编辑代理机 √ x 删除Agent代理主机 √ x 设置代理主机 √ x 查询当前用户能够被设置成代理机的列表 √ √ 批量更新插件 √ x 批量卸载插件 √ x 批量安装插件 √ x 查询插件历史任务详情日志 √ √ 查询插件执行历史记录的分页列表 √ √ 根据任务id,查询插件执行记录详情的分页列表 √ √ 获取历史任务详情里插件的执行状态的种类 √ √ 获取全部插件列表 √ √ 查询插件对应的版本号 √ √ 查询当前支持的插件列表 √ √ 获取租户下CCE集群信息列表 √ √ 获取租户下某个CCE集群下的Agent信息列表 √ √ 给租户下某个CCE集群安装ICAgent √ x 给租户下某个CCE集群升级ICAgent √ x 给租户下某个CCE集群卸载ICAgent √ x 获取CCE集群列表 √ √ 获取ICAgent机器列表 √ √ CCE集群机器安装ICAgent √ x CCE集群机器升级ICAgent √ x CCE集群机器卸载ICAgent √ x
  • 资源监控常用操作与系统权限 表3列出了资源监控常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表3 资源监控常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 创建告警规则 √ x 修改告警规则 √ x 删除告警规则 √ x 创建告警模板 √ x 修改告警模板 √ x 删除告警模板 √ x 创建告警行动规则 √ x 修改告警行动规则 √ x 删除告警行动规则 √ x 创建消息模板 √ x 修改消息模板 √ x 删除消息模板 √ x 创建分组规则 √ x 修改分组规则 √ x 删除分组规则 √ x 创建抑制规则 √ x 修改抑制规则 √ x 删除抑制规则 √ x 创建静默规则 √ x 修改静默规则 √ x 删除静默规则 √ x 创建仪表盘 √ x 修改仪表盘 √ x 删除仪表盘 √ x 创建Prometheus实例 √ x 修改Prometheus实例 √ x 删除Prometheus实例 √ x 创建应用发现规则 √ x 修改应用发现规则 √ x 删除应用发现规则 √ x 订阅阈值告警 √ x 配置虚机日志采集路径 √ x
  • 自动化运维常用操作与系统权限 表4列出了自动化运维常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表4 自动化运维常用操作与系统权限的关系 操作 CMS FullAccess CMS ReadOnlyAccess 创建脚本 √ x 编辑脚本 √ x 复制并新建脚本 √ x 编辑版本 √ x 查看脚本下的版本 √ √ 创建文件包 √ x 查看文件包 √ √ 编辑文件包 √ x 查看文件包版本列表 √ √ 修改文件包版本 √ x 删除文件包 √ x 创建任务 √ x 编辑任务 √ x 删除任务 √ x 查看任务列表 √ √ 查看任务详情 √ √ 执行任务 √ x
  • 应用资源管理常用操作与系统权限 表2列出了应用资源管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 应用资源管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询应用详情 √ √ 查询子应用详情 √ √ 查询组件详情 √ √ 查询环境详情 √ √ 查询环境标签 √ √ 查询资源详情 √ √ 新建应用 √ x 更新应用 √ x 删除应用 √ x 新建子应用 √ x 更新子应用 √ x 删除子应用 √ x 转移子应用 √ x 新建组件 √ x 更新组件 √ x 删除组件 √ x 转移组件 √ x 新建环境 √ x 更新环境 √ x 删除环境 √ x 创建环境标签 √ x 更新环境标签 √ x 删除环境标签 √ x 导入资源 √ x 更新资源 √ x 删除资源 √ x 转移资源 √ x 资源同步 √ x 绑定资源 √ x 解绑资源 √ x 开通资源授权 √ x 取消资源授权 √ x 获取应用列表 √ √ 获取子应用列表 √ √ 获取组件列表 √ √ 获取应用下标签列表 √ √ 获取资源列表 √ √ 查询节点拓扑关系 √ √ 查询操作记录 √ √
  • AOM权限 默认情况下,管理员创建的IAM用户没有任何权限,您需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对AOM进行操作。 AOM部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域对应的项目中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问AOM时,需要先切换至授权区域。 根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对ECS服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分,AOM支持的API授权项请参见策略和授权项说明。 如表1所示,包括了AOM的所有系统权限。 表1 AOM系统权限 子服务名称 策略名称 描述 类别 依赖系统权限 应用资源管理/监控中心/采集管理 AOM FullAccess AOM2.0管理员权限,拥有该权限的用户可以操作并使用AOM。 系统策略 CCE FullAccess、DMS ReadOnlyAccess AOM ReadOnlyAccess AOM2.0只读权限,拥有该权限的用户仅能查看AOM数据。 系统策略 CCE ReadOnlyAccess、DMS ReadOnlyAccess 自动化运维 CMS FullAccess 自动化运维管理员权限,拥有该权限的用户可以操作并使用自动化运维。 系统策略 - CMS ReadOnlyAccess 自动化运维只读权限,拥有该权限的用户仅能查看自动化运维数据。 系统策略
  • 基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无 flink_jobmanager_Status_JVM_CPU_Time jobmanager中JVM使用的CPU时间。 无 flink_jobmanager_Status_ProcessTree_CPU_Usage JobManager 中JVM的CPU使用率。 无 flink_taskmanager_Status_JVM_CPU_Load TaskManager 中JVM的CPU负载。 无 flink_taskmanager_Status_JVM_CPU_Time TaskManager中JVM使用的CPU时间。 无 flink_taskmanager_Status_ProcessTree_CPU_Usage TaskManager 中的JVM的CPU使用率。 无 Memory flink_jobmanager_Status_JVM_Memory_Heap_Used JobManager的堆内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Committed 保证JobManager的JVM可用的堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Max JobManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Used JobManager的堆外内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Committed 保证JobManager的JVM可用的堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Max JobManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Used JobManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Committed JobManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Max JobManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_Count JobManager direct缓冲池中的缓冲区数。 无 flink_jobmanager_Status_JVM_Memory_Direct_MemoryUsed JobManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_TotalCapacity JobManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_Count JobManager中mapped缓冲池中的缓冲区个数。 无 flink_jobmanager_Status_JVM_Memory_Mapped_MemoryUsed JobManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_TotalCapacity JobManager中mapped缓冲池中所有缓冲区的总容量 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Used JobManager中已使用的托管内存量。 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Total JobManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Used TaskManager的堆内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Committed 保证TaskManager的JVM可用的堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Max TaskManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Used TaskManager的堆外内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Committed 保证TaskManager的JVM可用的堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Max TaskManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Used TaskManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Committed TaskManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Max TaskManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_Count TaskManager direct缓冲池中的缓冲区数。 无 flink_taskmanager_Status_JVM_Memory_Direct_MemoryUsed TaskManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_TotalCapacity TaskManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_Count TaskManager中mapped缓冲池中的缓冲区个数。 无 flink_taskmanager_Status_JVM_Memory_Mapped_MemoryUsed TaskManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_TotalCapacity TaskManager中mapped缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Used TaskManager中已使用的托管内存量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Total TaskManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_ProcessTree_Memory_RSS 通过Linux获取整个进程的内存。 字节(Byte) Threads flink_jobmanager_Status_JVM_Threads_Count JobManager中活动的线程总数。 个 flink_taskmanager_Status_JVM_Threads_Count TaskManager中活动中的线程总数。 个 GarbageCollection flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count JobManager CMS垃圾回收器的回收次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time JobManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count JobManager GC次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time JobManager每次GC时间。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count TaskManager CMS垃圾回收器的回收次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time TaskManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count TaskManager GC次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time TaskManager每次GC时间。 毫秒(ms) ClassLoader flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded JobManager自JVM启动以来加载的类的总数。 无 flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded JobManager自JVM启动以来卸载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded TaskManager自JVM启动以来加载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded TaskManager自JVM启动以来卸载的类的总数。 无 Network flink_taskmanager_Status_Network_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Network_TotalMemorySegments TaskManager中分配的内存segments的总数。 无 Default shuffle service flink_taskmanager_Status_Shuffle_Netty_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_UsedMemorySegments TaskManager已使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_TotalMemorySegments TaskManager分配的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_AvailableMemory TaskManager中未使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_UsedMemory TaskManager中已使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_TotalMemory TaskManager中分配的内存量。 字节(Byte) Availability flink_jobmanager_job_numRestarts 自作业提交以来的重新启动总数。 次 Checkpointing flink_jobmanager_job_lastCheckpointDuration 完成最新checkpoint所用的时间 毫秒(ms) flink_jobmanager_job_lastCheckpointSize 最新checkpoint的大小,如果启用了增量检查点或更改日志,则此度量可能与lastCheckpointFullSize不同。 字节(Byte) flink_jobmanager_job_numberOfInProgressCheckpoints 正在进行的checkpoint的数量。 个 flink_jobmanager_job_numberOfCompletedCheckpoints 成功完成的checkpoint的数量。 个 flink_jobmanager_job_numberOfFailedCheckpoints 失败的checkpoint的数量。 个 flink_jobmanager_job_totalNumberOfCheckpoints 所有checkpoint的总数。 个 IO flink_taskmanager_job_task_numBytesOut Task输出的字节总数。 字节(Byte) flink_taskmanager_job_task_numBytesOutPerSecond Task每秒输出的字节总数。 字节/秒(Byte/s) flink_taskmanager_job_task_isBackPressured Task是否反压。 无 flink_taskmanager_job_task_numRecordsIn Task收到的记录总数。 条 flink_taskmanager_job_task_numRecordsInPerSecond Task每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_numBytesIn Task收到的字节数。 字节(Byte) flink_taskmanager_job_task_numBytesInPerSecond Task每秒收到的字节数。 字节/秒(Byte/s) flink_taskmanager_job_task_numRecordsOut Task发出的记录总数。 条 flink_taskmanager_job_task_numRecordsOutPerSecond Task每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsIn Operator收到的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsInPerSecond Operator每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsOut Operator发出的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsOutPerSecond Operator每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_sourceIdleTime Source 闲置时长。 毫秒(ms) flink_taskmanager_job_task_operator_source_numRecordsIn source收到的记录总数。 条 flink_taskmanager_job_task_operator_sink_numRecordsOut Sink端输出记录总数。 条 flink_taskmanager_job_task_operator_source_numRecordsInPerSecond 数据源Source端每秒输入的记录数。 条/秒 flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond 数据目的Sink端每秒输出的记录数。 条/秒 kafka connector flink_taskmanager_job_task_operator_currentEmitEventTimeLag 数据的事件时间与数据离开 Source 时的间隔 毫秒(ms) flink_taskmanager_job_task_operator_currentFetchEventTimeLag 数据的事件时间与数据进入Source的时间间隔 毫秒(ms) flink_taskmanager_job_task_operator_pendingRecords 尚未被 Source 拉取的数据数量 条 父主题: 指标总览
  • 与AOM 1.0对比 AOM 2.0基于AOM 1.0原有功能,结合用户常用的应用监控,增加了多种指标和日志数据的采集与监控,并对监控结果可视化呈现。同时,通过自动化运维功能将日常运维操作服务化、自动化,减少运维人员重复性操作。 本章节主要对比AOM 2.0与AOM 1.0版本的功能特性。 表1 AOM 2.0与AOM 1.0版本的功能特性对比 功能项 功能项说明 AOM 1.0 AOM 2.0 应用资源管理 资源检索 提供应用、主机等资源的检索功能,支持通过ID、关键字、名称等方式快速检索资源。 不支持 支持 应用管理 管理云服务对象与应用之间的关系,遵循“应用 + 子应用(可选)+ 组件 + 环境”的应用管理模型。 资源管理 全局查看所有的云服务资源对象与应用的关联关系,便于用户对资源进行分析和管理。 环境标签 为已创建的应用环境添加标签,便于用户快速过滤和查找相同属性的应用环境。 资源监控 接入中心 快速接入需要监控的业务层、应用层、中间件层、基础设施层指标。 不支持 支持 仪表盘 将不同图表展示到同一个屏幕上,通过多种图表形式展示资源的指标、日志和性能数据。 部分支持 只支持指标数据和系统性能数据的可视化监控,不支持日志数据的监控。 支持 告警管理 对服务设置事件条件或者对资源的指标设置阈值条件,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,将告警信息以邮件、短信、企业微信等方式发送给指定的人员。 部分支持 只支持按指标类型和Prometheus命令创建指标告警规则,不支持按全量指标创建。 支持 应用洞察 基于CMDB模型,从应用、组件到环境对资源健康状态分层监控。 部分支持 不支持基于CMDB模型,对指标数据分层监控。 支持 容器洞察 从工作负载和集群2个维度监控CCE的资源使用、状态和告警等信息,以便快速响应,保证工作负载顺畅运行。 支持 支持 指标浏览 实时监控日志数据和各资源的指标数据及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看业务及分析数据关联分析。 部分支持 只支持监控分析指标数据,不支持监控分析日志数据。 支持 基础设施监控 实时监控主机和云服务运行状态和虚机CPU、内存、磁盘等信息。 支持 支持 Prometheus监控 全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,可灵活扩展云原生组件指标插件。 不支持 支持 业务监控 将ELB上报到LTS的日志数据提取为指标来统一管理,便于后续在指标浏览、仪表盘界面实时监控。 不支持 支持 日志分析 通过日志接入和日志搜索功能帮您快速在海量日志中查询到所需的日志,还可通过分析日志的来源信息和上下文原始数据快速定位问题。 支持 支持 进程监控 通过配置应用发现规则发现和收集主机上部署的应用和关联的指标,并支持从应用下钻到组件,从组件下钻到实例,从实例下钻到容器。通过各层状态,完成对应用或组件的立体监控。 支持 支持 数据订阅 支持用户订阅指标或者告警信息,订阅后可以将数据转发到用户配置的kafka或DMS的Topic中,供消费者消费转发的订阅的信息。 支持 支持 采集管理 通过UniAgent调度采集任务对数据进行采集。目前UniAgent安装支持两种方式:手动安装和自动安装。 不支持 支持 自动化运维 服务场景 提供不同任务类型,并且可以对各原子服务场景卡片进行管理。 不支持 支持 定时运维 提供创建定时任务等功能,并展示定时任务的执行记录。 任务管理 提供执行任务等功能,并展示所有任务的执行记录。 参数库 提供创建参数等功能,并展示现有所有参数信息。 作业管理 提供创建作业等功能,并支持对作业进行管理。 脚本管理 提供创建脚本等功能,并支持对脚本进行版本管理。 文件管理 提供创建文件包等功能,并支持对文件包进行版本管理。 随着AOM 1.0相关功能逐步被AOM 2.0全面取代,AOM 1.0后续会逐步下线,建议用户将AOM 1.0升级到AOM 2.0版本,升级的相关操作请参见升级AOM。
  • 查看采集任务 Node Exporter安装完成后,您还可以在“ECS Node Exporter”弹框中的“采集任务”页签执行表1中的操作。 表1 相关操作 操作 说明 搜索采集任务 支持按采集任务、采集状态、主机IP、主机名称搜索采集任务。 刷新采集任务 在采集任务列表右上角单击,可实时获取所有最新的采集任务。 删除采集任务 单击采集任务列表“操作”列的删除。 启停采集任务 在采集任务列表开启/关闭该采集任务的“任务启停”列的开关。