MAPREDUCE服务 MRS-配置MRS集群监控指标数据转储:监控指标数据转储介绍

时间:2024-08-17 08:59:30

监控指标数据转储介绍

监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。用户可以在Manager界面上配置监控指标数据对接参数,使集群内各监控指标数据保存到指定的FTP服务器,与第三方系统进行对接。

FTP协议未加密数据可能存在安全风险,建议使用SFTP。转储服务器对应的弹性云服务器需要和 MRS 集群的Master节点在相同的VPC,且Master节点可以访问转储服务器的IP地址和指定端口。转储服务器的FTP服务正常。

Manager支持采集当前管理的集群内所有监控指标数据,采集周期有30秒、60秒和300秒三种。监控指标数据在FTP服务器保存时,会根据采集周期分别保存在不同的监控文件中。

表1 监控指标数据文件说明

监控指标数据

描述

采集周期

  • 30s周期:默认采集周期为30s的实时指标。
  • 60s周期:默认采集周期为60s的实时指标。
  • 300s周期:非30s、60s采集的所有指标。

文件名格式

  • MRS 3.x及之后版本:

    metric_监控指标数据采集的周期_文件创建时间.log

    如:metric_60_20160908085915.log、metric_300_20160908085613.log

  • MRS 3.x之前版本:

    集群名称_metric_监控指标数据采集的周期_文件创建时间.log

文件内容格式(以MRS 3.x版本为例)

  • 集群ID|集群名称|显示名称|服务名称|指标ID|采集时间|采集主机@m@子指标|单位|指标值
  • 示例:
    实际的文件中不存在对应的文件格式标题。
    1|xx1|Host|Host|10000413|2019/06/18 10:05:00|10-66-254-146|KB/s|309.910
    1|xx1|Host|Host|10000413|2019/06/18 10:05:00|10-66-254-152|KB/s|72.870
    2|xx2|Host|Host|10000413|2019/06/18 10:05:00|10-66-254-163|KB/s|100.650

第三方系统从上报的文件内容中解析出指标ID后,可以通过查询位于主备 OMS 节点的“ FusionInsight 安装路径/om-server/om/etc/om/all-shown-metric-zh_CN”指标全集文件获取指标详细信息,该文件包含了所有指标的详细信息,内容如下(以MRS 3.x版本为例):

实时指标ID,5分钟指标ID,指标名称,指标采集周期(秒),是否默认采集,指标所属服务,指标所属角色 
00101,10000101,JobHistoryServer非堆内存使用量,30,false,Mapreduce,JobHistoryServer 
00102,10000102,JobHistoryServer非堆内存分配量,30,false,Mapreduce,JobHistoryServer 
00103,10000103,JobHistoryServer堆内存使用量,30,false,Mapreduce,JobHistoryServer 
00104,10000104,JobHistoryServer堆内存分配量,30,false,Mapreduce,JobHistoryServer 
00105,10000105,阻塞线程数,30,false,Mapreduce,JobHistoryServer 
00106,10000106,运行线程数,30,false,Mapreduce,JobHistoryServer 
00107,10000107,GC时间,30,false,Mapreduce,JobHistoryServer 
00110,10000110,JobHistoryServer的CPU使用率,30,false,Mapreduce,JobHistoryServer 
...
  • 解析指标ID说明:

    针对采集周期为30s/60s的指标,参考该指标说明文件的是第1列,即实时指标ID即可找到对应的指标说明。

    针对采集周期为300s的指标,参考该指标说明文件对应的第2列,即5分钟指标ID即可找到对应的指标说明。

  • 部分字段说明:

    实时指标ID:指标的采集周期为30s/60s的指标ID,一个独立的指标项只可能存在30s或者60s的实时指标项。

    5分钟指标ID:指标对应的5分钟(300s)的指标ID。

    指标采集周期(秒):主要是针对实时指标的采集周期,可选值为30或60。

    指标所属服务:指标所属的服务名名称,标明指标所属的服务类型,如HDFS、HBase等。

    指标所属角色:指标所属的角色名名称,标明指标所属的实际角色类型,如JobServer、RegionServer等。

support.huaweicloud.com/usermanual-mrs/mrs_01_0235.html