云服务器内容精选

  • AOM 控制台功能依赖的角色或策略 如果 IAM 用户需要在AOM控制台拥有相应功能的查看或使用权限,请确认已经对该用户所在的用户组设置了AOM FullAccess或AOM ReadOnlyAccess策略的集群权限,再按如下表7增加依赖服务的角色或策略。 用户首次开通AOM服务,AOM会为其创建服务委托,用户除需授权AOM FullAccess外,还需要授予Security Administrator。 表7 AOM控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 工作负载 集群监控 Prometheus for CCE 云容器引擎 CCE 如果使用Prometheus for CCE、工作负载监控和集群监控,需要设置CCE FullAccess权限。 数据订阅 分布式消息服务Kafka版 如果使用数据订阅功能,需要设置DMS ReadOnlyAccess权限。
  • 细粒度权限说明 使用自定义细粒度策略,请使用管理员用户进入 统一身份认证 (IAM)服务,按需选择AOM的细粒度权限进行授权操作。AOM细粒度权限说明请参见表6。 表6 AOM细粒度权限说明 权限名称 权限描述 权限依赖 应用场景 cms:workflow:create 创建任务 ecs:cloudServers:list ecs:cloudServers:listServerInterfaces rds:instance:list 创建任务 cms:workflow:update 更新任务 functiongraph:function:create functiongraph:function:updateCode 更新任务 cms:workflow:list 获取任务列表 无 查询任务列表 cms:execution:get 获取任务执行信息 查询执行详情 cms:execution:create 执行任务 functiongraph:function:create functiongraph:function:invoke functiongraph:function:list 执行任务,如执行脚本,作业,安装和卸载文件包等 cms:template:get 获取模板信息 无 查询模板详情,查询作业执行方案详情 cms:template:list 获取模板列表 查询作业执行方案列表,查询可用于创建任务的模板列表 cms:script:get 查询脚本信息 查询脚本详情 cms:script:list 查询脚本列表 查询脚本列表 cms:job:list 查询作业列表 查询作业列表 aom:cmdbApplication:get 获取应用详情 无 根据应用ID获取应用详情、根据应用名称获取应用详情 aom:cmdbApplication:update 修改应用 修改应用 aom:cmdbApplication:delete 删除应用 删除应用 aom:cmdbApplication:get 获取应用详情 获取应用详情 aom:cmdbComponent:get 查询组件详情 根据组件ID查询组件详情、根据组件名称查询组件详情 aom:cmdbComponent:create 新增组件 新增组件 aom:cmdbComponent:update 更新组件 更新组件 aom:cmdbComponent:delete 删除组件 删除组件 aom:cmdbComponent:move 转移组件 转移组件 aom:cmdbComponent:list 查询组件列表 查询组件列表 aom:cmdbEnvironment:create 创建环境 创建环境 aom:cmdbEnvironment:update 修改环境 修改环境 aom:cmdbEnvironment:get 获取环境详情 根据环境ID获取环境详情、根据环境名称Region和组件ID获取环境详情 aom:cmdbEnvironment:delete 删除环境 删除环境 aom:cmdbSubApplication:get 查询子应用详情 查询子应用详情 aom:cmdbSubApplication:update 修改子应用 修改子应用 aom:cmdbSubApplication:move 转移子应用 转移子应用 aom:cmdbSubApplication:delete 删除子应用 删除子应用 aom:cmdbSubApplication:create 创建子应用 创建子应用 aom:cmdbSubApplication:list 查询子应用列表 查询子应用列表 aom:cmdbResources:unbind 解绑资源 解绑资源 aom:cmdbResources:bind 绑定资源 绑定资源 aom:cmdbResources:move 转移资源 转移资源 aom:cmdbResources:get 查询资源详情 查询资源详情 aom:alarm:put 上报告警 无 上报自定义告警 aom:event2AlarmRule:create 新增一条事件类告警规则 新增一条事件类告警规则 aom:event2AlarmRule:set 更新事件类告警规则 更新事件类告警规则 aom:event2AlarmRule:delete 删除事件类告警规则 删除事件类告警规则 aom:event2AlarmRule:list 查询全部事件类告警规则 查询全部事件类告警规则 aom:actionRule:create 新增告警行动规则 新增告警行动规则 aom:actionRule:delete 删除告警行动规则 删除告警行动规则 aom:actionRule:list 获取告警行动规则列表 获取告警行动规则列表 aom:actionRule:update 修改告警行动规则 修改告警行动规则 aom:actionRule:get 通过规则名称获取告警行动规则 通过规则名称获取告警行动规则 aom:alarm:list 获取告警发送结果 获取告警发送结果 aom:alarmRule:create 创建阈值规则 创建阈值规则 aom:alarmRule:set 修改阈值规则 修改阈值规则 aom:alarmRule:get 查询阈值规则 根据ID查询单个阈值规则或者查询所有阈值规则 aom:alarmRule:delete 删除阈值规则 批量删除阈值规则或者根据ID删除单个阈值规则 aom:discoveryRule:list 查看应用发现规则 查询系统中已有应用发现规则 aom:discoveryRule:delete 删除应用发现规则 删除应用发现规则 aom:discoveryRule:set 添加应用发现规则 添加应用发现规则 aom:metric:list 查询时间序列 查询时间序列 aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 aom:muteRule:delete 删除静默规则 无 删除静默规则 aom:muteRule:create 新增静默规则 新增静默规则 aom:muteRule:update 修改静默规则 修改静默规则 aom:muteRule:list 获取静默规则列表 获取静默规则列表
  • 采集管理常用操作与系统权限 表5列出了采集管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表5 采集管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询代理区域 √ √ 编辑代理区域 √ x 删除代理区域 √ x 新建代理区域 √ x 查询某代理区域内所有的代理机 √ √ 查询全部代理区域 √ √ 安装Agent结果详情 √ √ 获取对应主机的安装命令 √ √ 获取对应主机的心跳及和server的连接状况 √ √ 批量卸载运行中的Agent √ x 查询Agent首页 √ √ 测试安装机和目标机的连通性 √ x 批量导入安装Agent √ x 获取Agent最近一次操作的执行日志相关信息 √ √ 获取Agent安装时可选择的版本列表 √ √ 获取当前项目ID下所有Agent版本号列表 √ √ 删除多条Agent主机 √ x 根据ecs_id查询Agent信息 √ √ 删除单条Agent主机 √ x 设置安装机 √ x 重置安装机参数 √ x 查询当前登录用户的项目能够被设置成安装机的列表 √ √ 查询Agent安装机列表 √ √ 删除安装机 √ x 批量升级Agent √ x 查询历史任务详情日志 √ √ 查询历史任务详情 √ √ 查询全部历史任务 √ √ 获取所有种类的执行状态和任务类型 √ √ 获取历史任务详情里Agent的执行状态种类 √ √ 编辑代理机 √ x 删除Agent代理主机 √ x 设置代理主机 √ x 查询当前用户能够被设置成代理机的列表 √ √ 批量更新插件 √ x 批量卸载插件 √ x 批量安装插件 √ x 查询插件历史任务详情日志 √ √ 查询插件执行历史记录的分页列表 √ √ 根据任务id,查询插件执行记录详情的分页列表 √ √ 获取历史任务详情里插件的执行状态的种类 √ √ 获取全部插件列表 √ √ 查询插件对应的版本号 √ √ 查询当前支持的插件列表 √ √ 获取租户下CCE集群信息列表 √ √ 获取租户下某个CCE集群下的Agent信息列表 √ √ 给租户下某个CCE集群安装ICAgent √ x 给租户下某个CCE集群升级ICAgent √ x 给租户下某个CCE集群卸载ICAgent √ x 获取CCE集群列表 √ √ 获取ICAgent机器列表 √ √ CCE集群机器安装ICAgent √ x CCE集群机器升级ICAgent √ x CCE集群机器卸载ICAgent √ x
  • 资源监控常用操作与系统权限 表3列出了资源监控常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表3 资源监控常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 创建告警规则 √ x 修改告警规则 √ x 删除告警规则 √ x 创建告警模板 √ x 修改告警模板 √ x 删除告警模板 √ x 创建告警行动规则 √ x 修改告警行动规则 √ x 删除告警行动规则 √ x 创建消息模板 √ x 修改消息模板 √ x 删除消息模板 √ x 创建分组规则 √ x 修改分组规则 √ x 删除分组规则 √ x 创建抑制规则 √ x 修改抑制规则 √ x 删除抑制规则 √ x 创建静默规则 √ x 修改静默规则 √ x 删除静默规则 √ x 创建仪表盘 √ x 修改仪表盘 √ x 删除仪表盘 √ x 创建Prometheus实例 √ x 修改Prometheus实例 √ x 删除Prometheus实例 √ x 创建应用发现规则 √ x 修改应用发现规则 √ x 删除应用发现规则 √ x 订阅阈值告警 √ x 配置虚机日志采集路径 √ x
  • 自动化运维常用操作与系统权限 表4列出了自动化运维常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表4 自动化运维常用操作与系统权限的关系 操作 CMS FullAccess CMS ReadOnlyAccess 创建脚本 √ x 编辑脚本 √ x 复制并新建脚本 √ x 编辑版本 √ x 查看脚本下的版本 √ √ 创建文件包 √ x 查看文件包 √ √ 编辑文件包 √ x 查看文件包版本列表 √ √ 修改文件包版本 √ x 删除文件包 √ x 创建任务 √ x 编辑任务 √ x 删除任务 √ x 查看任务列表 √ √ 查看任务详情 √ √ 执行任务 √ x
  • 应用资源管理常用操作与系统权限 表2列出了应用资源管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 应用资源管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询应用详情 √ √ 查询子应用详情 √ √ 查询组件详情 √ √ 查询环境详情 √ √ 查询环境标签 √ √ 查询资源详情 √ √ 新建应用 √ x 更新应用 √ x 删除应用 √ x 新建子应用 √ x 更新子应用 √ x 删除子应用 √ x 转移子应用 √ x 新建组件 √ x 更新组件 √ x 删除组件 √ x 转移组件 √ x 新建环境 √ x 更新环境 √ x 删除环境 √ x 创建环境标签 √ x 更新环境标签 √ x 删除环境标签 √ x 导入资源 √ x 更新资源 √ x 删除资源 √ x 转移资源 √ x 资源同步 √ x 绑定资源 √ x 解绑资源 √ x 开通资源授权 √ x 取消资源授权 √ x 获取应用列表 √ √ 获取子应用列表 √ √ 获取组件列表 √ √ 获取应用下标签列表 √ √ 获取资源列表 √ √ 查询节点拓扑关系 √ √ 查询操作记录 √ √
  • AOM权限 默认情况下,管理员创建的IAM用户没有任何权限,您需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对AOM进行操作。 AOM部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域对应的项目中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问AOM时,需要先切换至授权区域。 根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对E CS 服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分,AOM支持的API授权项请参见策略和授权项说明。 如表1所示,包括了AOM的所有系统权限。 表1 AOM系统权限 子服务名称 策略名称 描述 类别 依赖系统权限 应用资源管理/监控中心/采集管理 AOM FullAccess AOM2.0管理员权限,拥有该权限的用户可以操作并使用AOM。 系统策略 CCE FullAccess、DMS ReadOnlyAccess AOM ReadOnlyAccess AOM2.0只读权限,拥有该权限的用户仅能查看AOM数据。 系统策略 CCE ReadOnlyAccess、DMS ReadOnlyAccess 自动化运维 CMS FullAccess 自动化运维管理员权限,拥有该权限的用户可以操作并使用自动化运维。 系统策略 - CMS ReadOnlyAccess 自动化运维只读权限,拥有该权限的用户仅能查看自动化运维数据。 系统策略
  • 基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无 flink_jobmanager_Status_JVM_CPU_Time jobmanager中JVM使用的CPU时间。 无 flink_jobmanager_Status_ProcessTree_CPU_Usage JobManager 中JVM的CPU使用率。 无 flink_taskmanager_Status_JVM_CPU_Load TaskManager 中JVM的CPU负载。 无 flink_taskmanager_Status_JVM_CPU_Time TaskManager中JVM使用的CPU时间。 无 flink_taskmanager_Status_ProcessTree_CPU_Usage TaskManager 中的JVM的CPU使用率。 无 Memory flink_jobmanager_Status_JVM_Memory_Heap_Used JobManager的堆内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Committed 保证JobManager的JVM可用的堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Max JobManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Used JobManager的堆外内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Committed 保证JobManager的JVM可用的堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Max JobManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Used JobManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Committed JobManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Max JobManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_Count JobManager direct缓冲池中的缓冲区数。 无 flink_jobmanager_Status_JVM_Memory_Direct_MemoryUsed JobManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_TotalCapacity JobManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_Count JobManager中mapped缓冲池中的缓冲区个数。 无 flink_jobmanager_Status_JVM_Memory_Mapped_MemoryUsed JobManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_TotalCapacity JobManager中mapped缓冲池中所有缓冲区的总容量 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Used JobManager中已使用的托管内存量。 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Total JobManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Used TaskManager的堆内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Committed 保证TaskManager的JVM可用的堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Max TaskManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Used TaskManager的堆外内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Committed 保证TaskManager的JVM可用的堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Max TaskManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Used TaskManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Committed TaskManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Max TaskManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_Count TaskManager direct缓冲池中的缓冲区数。 无 flink_taskmanager_Status_JVM_Memory_Direct_MemoryUsed TaskManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_TotalCapacity TaskManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_Count TaskManager中mapped缓冲池中的缓冲区个数。 无 flink_taskmanager_Status_JVM_Memory_Mapped_MemoryUsed TaskManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_TotalCapacity TaskManager中mapped缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Used TaskManager中已使用的托管内存量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Total TaskManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_ProcessTree_Memory_RSS 通过Linux获取整个进程的内存。 字节(Byte) Threads flink_jobmanager_Status_JVM_Threads_Count JobManager中活动的线程总数。 个 flink_taskmanager_Status_JVM_Threads_Count TaskManager中活动中的线程总数。 个 GarbageCollection flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count JobManager CMS垃圾回收器的回收次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time JobManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count JobManager GC次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time JobManager每次GC时间。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count TaskManager CMS垃圾回收器的回收次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time TaskManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count TaskManager GC次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time TaskManager每次GC时间。 毫秒(ms) ClassLoader flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded JobManager自JVM启动以来加载的类的总数。 无 flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded JobManager自JVM启动以来卸载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded TaskManager自JVM启动以来加载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded TaskManager自JVM启动以来卸载的类的总数。 无 Network flink_taskmanager_Status_Network_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Network_TotalMemorySegments TaskManager中分配的内存segments的总数。 无 Default shuffle service flink_taskmanager_Status_Shuffle_Netty_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_UsedMemorySegments TaskManager已使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_TotalMemorySegments TaskManager分配的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_AvailableMemory TaskManager中未使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_UsedMemory TaskManager中已使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_TotalMemory TaskManager中分配的内存量。 字节(Byte) Availability flink_jobmanager_job_numRestarts 自作业提交以来的重新启动总数。 次 Checkpointing flink_jobmanager_job_lastCheckpointDuration 完成最新checkpoint所用的时间 毫秒(ms) flink_jobmanager_job_lastCheckpointSize 最新checkpoint的大小,如果启用了增量检查点或更改日志,则此度量可能与lastCheckpointFullSize不同。 字节(Byte) flink_jobmanager_job_numberOfInProgressCheckpoints 正在进行的checkpoint的数量。 个 flink_jobmanager_job_numberOfCompletedCheckpoints 成功完成的checkpoint的数量。 个 flink_jobmanager_job_numberOfFailedCheckpoints 失败的checkpoint的数量。 个 flink_jobmanager_job_totalNumberOfCheckpoints 所有checkpoint的总数。 个 IO flink_taskmanager_job_task_numBytesOut Task输出的字节总数。 字节(Byte) flink_taskmanager_job_task_numBytesOutPerSecond Task每秒输出的字节总数。 字节/秒(Byte/s) flink_taskmanager_job_task_isBackPressured Task是否反压。 无 flink_taskmanager_job_task_numRecordsIn Task收到的记录总数。 条 flink_taskmanager_job_task_numRecordsInPerSecond Task每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_numBytesIn Task收到的字节数。 字节(Byte) flink_taskmanager_job_task_numBytesInPerSecond Task每秒收到的字节数。 字节/秒(Byte/s) flink_taskmanager_job_task_numRecordsOut Task发出的记录总数。 条 flink_taskmanager_job_task_numRecordsOutPerSecond Task每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsIn Operator收到的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsInPerSecond Operator每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsOut Operator发出的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsOutPerSecond Operator每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_sourceIdleTime Source 闲置时长。 毫秒(ms) flink_taskmanager_job_task_operator_source_numRecordsIn source收到的记录总数。 条 flink_taskmanager_job_task_operator_sink_numRecordsOut Sink端输出记录总数。 条 flink_taskmanager_job_task_operator_source_numRecordsInPerSecond 数据源Source端每秒输入的记录数。 条/秒 flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond 数据目的Sink端每秒输出的记录数。 条/秒 kafka connector flink_taskmanager_job_task_operator_currentEmitEventTimeLag 数据的事件时间与数据离开 Source 时的间隔 毫秒(ms) flink_taskmanager_job_task_operator_currentFetchEventTimeLag 数据的事件时间与数据进入Source的时间间隔 毫秒(ms) flink_taskmanager_job_task_operator_pendingRecords 尚未被 Source 拉取的数据数量 条 父主题: 指标总览
  • 与AOM 1.0对比 AOM 2.0基于AOM 1.0原有功能,结合用户常用的应用监控,增加了多种指标和日志数据的采集与监控,并对监控结果可视化呈现。同时,通过自动化运维功能将日常运维操作服务化、自动化,减少运维人员重复性操作。 本章节主要对比AOM 2.0与AOM 1.0版本的功能特性。 表1 AOM 2.0与AOM 1.0版本的功能特性对比 功能项 功能项说明 AOM 1.0 AOM 2.0 应用资源管理 资源检索 提供应用、主机等资源的检索功能,支持通过ID、关键字、名称等方式快速检索资源。 不支持 支持 应用管理 管理云服务对象与应用之间的关系,遵循“应用 + 子应用(可选)+ 组件 + 环境”的应用管理模型。 资源管理 全局查看所有的云服务资源对象与应用的关联关系,便于用户对资源进行分析和管理。 环境标签 为已创建的应用环境添加标签,便于用户快速过滤和查找相同属性的应用环境。 资源监控 接入中心 快速接入需要监控的业务层、应用层、中间件层、基础设施层指标。 不支持 支持 仪表盘 将不同图表展示到同一个屏幕上,通过多种图表形式展示资源的指标、日志和性能数据。 部分支持 只支持指标数据和系统性能数据的可视化监控,不支持日志数据的监控。 支持 告警管理 对服务设置事件条件或者对资源的指标设置阈值条件,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,将告警信息以邮件、短信、企业微信等方式发送给指定的人员。 部分支持 只支持按指标类型和Prometheus命令创建指标告警规则,不支持按全量指标创建。 支持 应用洞察 基于CMDB模型,从应用、组件到环境对资源健康状态分层监控。 部分支持 不支持基于CMDB模型,对指标数据分层监控。 支持 容器洞察 从工作负载和集群2个维度监控CCE的资源使用、状态和告警等信息,以便快速响应,保证工作负载顺畅运行。 支持 支持 指标浏览 实时监控日志数据和各资源的指标数据及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看业务及分析数据关联分析。 部分支持 只支持监控分析指标数据,不支持监控分析日志数据。 支持 基础设施监控 实时监控主机和云服务运行状态和虚机CPU、内存、磁盘等信息。 支持 支持 Prometheus监控 全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,可灵活扩展云原生组件指标插件。 不支持 支持 业务监控 将ELB上报到LTS的日志数据提取为指标来统一管理,便于后续在指标浏览、仪表盘界面实时监控。 不支持 支持 日志分析 通过日志接入和日志搜索功能帮您快速在海量日志中查询到所需的日志,还可通过分析日志的来源信息和上下文原始数据快速定位问题。 支持 支持 进程监控 通过配置应用发现规则发现和收集主机上部署的应用和关联的指标,并支持从应用下钻到组件,从组件下钻到实例,从实例下钻到容器。通过各层状态,完成对应用或组件的立体监控。 支持 支持 数据订阅 支持用户订阅指标或者告警信息,订阅后可以将数据转发到用户配置的kafka或DMS的Topic中,供消费者消费转发的订阅的信息。 支持 支持 采集管理 通过UniAgent调度采集任务对数据进行采集。目前UniAgent安装支持两种方式:手动安装和自动安装。 不支持 支持 自动化运维 服务场景 提供不同任务类型,并且可以对各原子服务场景卡片进行管理。 不支持 支持 定时运维 提供创建定时任务等功能,并展示定时任务的执行记录。 任务管理 提供执行任务等功能,并展示所有任务的执行记录。 参数库 提供创建参数等功能,并展示现有所有参数信息。 作业管理 提供创建作业等功能,并支持对作业进行管理。 脚本管理 提供创建脚本等功能,并支持对脚本进行版本管理。 文件管理 提供创建文件包等功能,并支持对文件包进行版本管理。 随着AOM 1.0相关功能逐步被AOM 2.0全面取代,AOM 1.0后续会逐步下线,建议用户将AOM 1.0升级到AOM 2.0版本,升级的相关操作请参见升级AOM。
  • 查看采集任务 Node Exporter安装完成后,您还可以在“ECS Node Exporter”弹框中的“采集任务”页签执行表1中的操作。 表1 相关操作 操作 说明 搜索采集任务 支持按采集任务、采集状态、主机IP、主机名称搜索采集任务。 刷新采集任务 在采集任务列表右上角单击,可实时获取所有最新的采集任务。 删除采集任务 单击采集任务列表“操作”列的删除。 启停采集任务 在采集任务列表开启/关闭该采集任务的“任务启停”列的开关。
  • 更多操作 您还可以根据需要执行以下操作,具体请参见表 相关操作。 表6 相关操作 操作 说明 改变指标排列顺序 在“指标量(最近10分钟)”或“占比”列后单击,可改变指标在列表中的排列顺序。为默认排序,为按大小正序排序(即数据大的显示在最后方),为按大小倒序排序(即数据小的显示在最后方)。 新增指标 单击“新增指标”,在指标列表中选择需要新增的指标,单击“确定”。 说明: 单次新增指标最多支持新增100个指标。 废弃指标 废弃一个指标:选择一个指标,单击操作列的。 废弃一个或多个指标:选中一个或多个指标前的复选框,在弹出框中选择“废弃”,可以废弃一个或多个指标。 说明: 单次废弃指标最多支持废弃100个指标。
  • 注意事项 目前仅default类型、CCE类型、云服务类型、通用实例、ECS类型的Prometheus实例支持指标查看、新增和废弃功能。 default类型的Prometheus实例下,指标名以“aom_”、“apm_”开头以及资源类型为ICAgent的指标暂不支持废弃。 ECS类型的Prometheus实例仅支持展示和配置UniAgent插件采集的指标。 CCE类型的Prometheus实例仅支持废弃如下指标: 只有在CCE “插件市场” 页面或AOM “集成中心” 页面安装的3.9.0以上的云原生监控插件(kube-prometheus-stack)上报的指标可以被废弃,且只有kube-prometheus-stack处于“运行中”状态时,指标才能废弃成功。 查看kube-prometheus-stack插件状态的方法:登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到“云原生监控插件”卡片,查看插件的状态。
  • 前提条件 服务已接入CCE类型Prometheus 监控并接入CCE集群,具体请参见Prometheus实例 for CCE。 服务已接入云服务类型Prometheus 监控并接入云服务,具体请参见Prometheus实例 for 云服务。 服务已接入ECS类型Prometheus监控并接入插件,具体请参见Prometheus实例 for ECS。 服务已接入通用实例类型Prometheus 监控,具体请参见Prometheus 通用实例。
  • Prometheus监控概述 Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘和全面托管的Prometheus服务。 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及 数据可视化 展示等。更多信息请参见Prometheus官方文档。 Prometheus实例 Prometheus实例是AOM服务提供的管理Prometheus数据采集和数据存储分析的逻辑单元。根据Prometheus监控的对象和使用场景,Prometheus实例可以分为以下几种类型,具体请参见表1。 表1 Prometheus实例说明 Prometheus实例类型 监控对象 监控能力 应用场景 default 通过添加监控数据API上报的指标。 IoTDA、ModelArts、IEF、CCI等API上报的云服务指标。 通过ICAgent采集上报的指标。 提供通过API和ICAgent上报到AOM的指标的监控。 通用Prometheus实例,不区分使用场景,既适合作为自建Prometheus 的远程存储(Remote Write)场景,也适合接入容器、云服务、主机等指标数据的场景。 Prometheus实例 for CCE CCE 提供与容器服务原生的集成能力、容器指标的监控能力。 默认开启以下服务发现能力:Kubernetes SD、 ServiceMonitor、PodMonitor的自定义发现。 适合需要对容器服务集群及其上面运行的应用进行一体化监控场景。 Prometheus实例 for ECS ECS 通过在VPC内的某台虚机上安装uniagent(Exporter)插件提供针对此VPC内ECS应用和组件(如数据库,中间件等)的一体化监控。 适合需要对运行在华为云的 虚拟私有云VPC 内(通常为弹性 云服务器ECS 集群)的应用组件进行监控场景,可以通过接入中心添加Prometheus中间件监控。 Prometheus实例 for 云服务 多种云服务 提供多种云服务的监控。 说明: 一个企业项目下只支持创建一个“Prometheus for 云服务”类型的Prometheus实例。 适合需要通过Prometheus监控来统一采集、存储和显示云服务的监控数据的场景。 Prometheus实例 通用实例 自建的Prometheus 提供Prometheus 时序数据库 的远端存储。 提供自研监控大盘进行数据的展示。 说明: 由于Prometheus服务器为用户自己运维,所以相应的指标管理、数据采集等需用户自行配置。 适合已经自建了Prometheus Server,但需要通过远端存储(Remote Write)方式来解决数据存储问题的可用性和可扩展性场景。 Prometheus实例 for 多账号聚合实例 同一个组织下多账号的云服务资源、CCE资源和ECS资源 支持对同一个组织下多账号的云服务资源、CCE、ECS数据聚合,运维监控。 说明: 通过该Prometheus实例接入的 CCE和ECS指标的详细描述请参见虚机指标。 其他云服务指标的详细描述请参见云服务指标说明。 适合需要统一监控同一个组织下多成员账号的云服务资源、CCE资源、ECS资源的场景。 父主题: Prometheus监控简介
  • 更多仪表盘操作 仪表盘创建完成后,您还可以执行表5中的操作。 表5 相关操作 操作 说明 设置列表项 在仪表盘列表右上角单击,通过选中/取消选中各展示项前的复选框,自定义列表项的展示/隐藏。 收藏仪表盘 选择一个仪表盘,单击“操作”列的。 移动仪表盘分组 移动一个仪表盘分组:选择一个仪表盘,单击“操作”列的,选择“移动分组”。 批量移动仪表盘分组:选中多个仪表盘前的复选框,在弹出框中选择“移动分组”可修改仪表盘分组。 删除仪表盘 删除一个仪表盘:选择一个仪表盘,单击“操作”列的,选择“删除”。 批量删除仪表盘:选中多个仪表盘前的复选框,在弹出框中选择“删除”可批量删除仪表盘。 修改仪表盘分组名称 在“仪表盘”列表,单击仪表盘名称。 进入对应仪表盘页面,在“仪表盘”页面左上角,单击仪表盘名称。 将光标移至待操作的仪表盘分组名称后,单击,选择“编辑”可修改分组名称。 删除仪表盘分组 删除仪表盘分组功能有两种入口方式: 入口一: 在“仪表盘”列表,单击仪表盘名称。 进入对应仪表盘页面,在“仪表盘”页面左上角,单击仪表盘名称。 将光标移至待操作的仪表盘分组名称后,单击 ,选择“删除”。 在弹出框中单击“确定”,删除仪表盘分组。 入口二:在仪表盘分组列表中,将光标移至需要删除的仪表盘分组名称后,单击,选择“删除”,在弹出框中单击“确定”,删除仪表盘分组。 删除仪表盘中的图表 选择待操作的仪表盘,在“仪表盘”页面右上角单击,将光标移至某个图表框右上角,单击,在下拉列表中选择“删除图表”。 单击,将已创建图表删除。 调整仪表盘中图表的位置 选择待操作的仪表盘,在“仪表盘”页面右上角单击,将光标移至待操作的图表框内,选中该图表,可将该图表移动至仪表盘内任意位置。 单击,调整当前图表布局。 全屏显示 选择待操作的仪表盘,在“仪表盘”页面右上角单击,可全屏显示仪表盘。 退出全屏显示 将光标移至屏幕上方,单击弹出的,或者单击,或者按键盘中的“Esc”可退出全屏模式。 手动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击可手动刷新当前页面。 自动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击后的下拉箭头,开启仪表盘自动刷新开关。 手动刷新单个图表 选择待操作的仪表盘,将光标移至某个图表框右上角,单击,在下拉列表中选择“刷新”,可手动刷新当前图表。 修改单个图表 选择待操作的仪表盘,将光标移至某一图表框右上角,单击,选择“编辑”,可修改图表数据,具体操作请参见添加图表至仪表盘。 修改完成后,单击“确定”。 在“仪表盘”页面右上角单击,保存修改结果。 新增告警规则 添加图表时,新增告警规则 单击页面中的“添加图表”或单击页面右上角的。 选择指标后,在指标列表右上方单击,可为当前添加的所有指标新增告警规则。具体操作请参见创建指标告警规则。 修改图表时,新增告警规则 选择待操作的仪表盘,将光标移至某一图表框右上角,单击,选择“编辑”。 选择指标后,在指标列表右上方单击,可为当前添加的所有指标新增告警规则。具体操作请参见创建指标告警规则。 全屏显示单个图表 选择待操作的仪表盘,将光标移至某一图表框右上角,单击,选择“全屏”,可全屏显示图表数据。 退出全屏显示单个图表 将光标移至屏幕上方,单击弹出的,或者单击,选择“退出全屏”,或者按键盘中的“Esc”可退出全屏模式。 轮播仪表盘 选择待操作的仪表盘,在“仪表盘”页面右上角单击。具体操作请参见设置全屏模式在线时长。 仪表盘设置 选择待操作的仪表盘,在“仪表盘”页面右上角单击。具体操作请参见新增变量。 查询时间设置 选择待操作的仪表盘,在“仪表盘”页面右上角单击前面的下拉框,在下拉框可选择“近30分钟”、“近1小时”、“近6小时”、“近一天”、“近一周”、“自定义时间段”。若选择“自定义时间段”,在弹出日历表中选择对应的时间段,时间可精确至秒数。单击“确定”后,可根据选择时间查询仪表盘中所有图表数据。 导出仪表盘 可将该仪表盘的指标图表数据以JSON格式导出,并保存到本地便于进一步分析。导出仪表盘功能有两种入口方式: 入口一:在仪表盘列表中,选择一个仪表盘,单击“操作”列的,选择“导出仪表盘”。 入口二:选择待操作的仪表盘,在“仪表盘”页面右上角单击,并选择“导出仪表盘”。 导入仪表盘 将本地存储的JSON格式仪表盘数据导入AOM,便于在AOM上可视化分析。导入仪表盘功能有两种入口方式: 入口一:在“仪表盘”页面,单击“导入仪表盘”。 入口二:在仪表盘分组列表中,将光标移至需要导入仪表盘的分组名称后,单击,选择“导入仪表盘”。 导入方法: 选择待导入的JSON格式仪表盘文件,上传或拖入“导入仪表盘”对话框的文本上传区域,然后单击“创建”。 在“新建仪表盘”对话框,依次设置仪表盘名称等信息,具体请参见表1。 设置完成,单击“创建”。 导出监控报告 选择待操作的仪表盘,在“仪表盘”页面右上角单击,选择“导出折线图监控报告”,可将该指标的折线图表以CSV格式导出,以便进行本地存储及进一步分析。 表6 日志图表相关操作 操作 说明 创建日志组 输入日志组名称。日志组名称只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾。 设置日志存储时间。存储时间默认为7天,可设置为1~30天内的时间节点。超出存储时间的日志将会被自动删除,您可以按需将日志数据转储至OBS桶中长期存储。 单击“确定”完成创建。 创建日志流 输入日志流名称。日志流名称只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾。 单击“确定”完成创建。