MAPREDUCE服务 MRS-配置MRS集群告警阈值:监控指标参考(MRS 3.x及之后版本)
监控指标参考( MRS 3.x及之后版本)
FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。
MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。
监控指标组名称 |
监控指标名称 |
指标含义 |
默认阈值 |
---|---|---|---|
CPU |
主机CPU使用率 |
描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 |
90.0% |
磁盘 |
磁盘使用率 |
描述主机磁盘的使用率。 |
90.0% |
磁盘inode使用率 |
统计采集周期内磁盘inode使用率。 |
80.0% |
|
内存 |
主机内存使用率 |
统计当前时间点的内存平均使用率。 |
90.0% |
主机状态 |
主机文件句柄使用率 |
统计采集周期内该主机的文件句柄使用率。 |
80.0% |
主机PID使用率 |
主机PID使用率。 |
90% |
|
网络状态 |
TCP临时端口使用率 |
统计采集周期内该主机的TCP临时端口使用率。 |
80.0% |
网络读信息 |
读包错误率 |
统计采集周期内该主机上该网口的读包错误率。 |
0.5% |
读包丢包率 |
统计采集周期内该主机上该网口的读包丢包率。 |
0.5% |
|
读吞吐率 |
统计周期内网口的平均读吞吐率(MAC层)。 |
80% |
|
网络写信息 |
写包错误率 |
统计采集周期内该主机上该网口的写包错误率。 |
0.5% |
写包丢包率 |
统计采集周期内该主机上该网口的写包丢包率。 |
0.5% |
|
写吞吐率 |
统计周期内网口的平均写吞吐率(MAC层)。 |
80% |
|
进程 |
D状态进程总数 |
统计周期内主机上D状态进程数量。 |
0 |
omm进程使用率 |
统计周期内omm进程使用率。 |
90 |
服务 |
监控指标组名称 |
监控指标名称 |
指标含义 |
默认阈值 |
---|---|---|---|---|
DBService |
数据库 |
数据库连接数使用率 |
数据库连接数使用率统计。 |
90% |
数据目录磁盘空间使用率 |
数据目录磁盘空间使用率统计。 |
80% |
||
Flume |
Agent |
Flume堆内存使用率 |
Flume堆内存使用百分比统计。 |
95.0% |
Flume直接内存使用率 |
Flume直接内存使用百分比统计。 |
80.0% |
||
Flume非堆内存使用率 |
Flume非堆内存使用百分比统计。 |
80.0% |
||
Flume垃圾回收(GC)总时间 |
Flume垃圾回收(GC)总时间。 |
12000ms |
||
HBase |
GC |
GC中回收old区所花时长 |
RegionServer的总GC时间。 |
5000ms |
GC中回收old区所花时长 |
HMaster的总GC时间。 |
5000ms |
||
CPU和内存 |
RegionServer直接内存使用率统计 |
RegionServer直接内存使用率统计。 |
90% |
|
RegionServer堆内存使用率统计 |
RegionServer堆内存使用率统计。 |
90% |
||
HMaster直接内存使用率统计 |
HMaster直接内存使用率统计。 |
90% |
||
HMaster堆内存使用率统计 |
HMaster堆内存使用率统计。 |
90% |
||
服务 |
单个RegionServer的region数目 |
单个RegionServer的Region数目。 |
2000 |
|
处在RIT状态达到阈值时长的region数 |
处在RIT状态达到阈值时长的region数。 |
1 |
||
容灾 |
容灾同步失败次数 |
同步容灾数据失败次数。 |
1 |
|
主集群等待同步的日志文件数量 |
主集群等待同步的日志文件数量。 |
128 |
||
主集群等待同步的HFile文件数量 |
主集群等待同步的HFile文件数量。 |
128 |
||
队列 |
Compaction操作队列大小 |
Compaction操作队列大小。 |
100 |
|
HDFS |
文件和块 |
HDFS缺失的块数量 |
HDFS文件系统中缺少副本块数量。 |
0 |
需要复制副本的块总数 |
NameNode需要复制副本的块总数。 |
1000 |
||
RPC |
主NameNode RPC处理平均时间 |
NameNode RPC处理平均时间。 |
100ms |
|
主NameNode RPC队列平均时间 |
NameNode RPC队列平均时间。 |
200ms |
||
磁盘 |
HDFS磁盘空间使用率 |
HDFS磁盘空间使用率。 |
80% |
|
DataNode磁盘空间使用率 |
HDFS文件系统中DataNode可以使用的磁盘空间率。 |
80% |
||
总副本预留磁盘空间所占比率 |
总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 |
90% |
||
资源 |
故障的DataNode总数 |
出故障的DataNode节点数量。 |
3 |
|
NameNode非堆内存使用百分比统计 |
NameNode非堆内存使用百分比统计。 |
90% |
||
NameNode直接内存使用百分比统计 |
NameNode直接内存使用百分比统计。 |
90% |
||
NameNode堆内存使用百分比统计 |
NameNode堆内存使用百分比统计。 |
95% |
||
DataNode直接内存使用百分比统计 |
DataNode直接内存使用百分比统计。 |
90% |
||
DataNode堆内存使用百分比统计 |
DataNode堆内存使用百分比统计。 |
95% |
||
DataNode非堆内存使用百分比统计 |
DataNode非堆内存使用百分比统计。 |
90% |
||
垃圾回收 |
垃圾回收时间统计(GC) |
NameNode每分钟的垃圾回收(GC)所占用的时间。 |
12000ms |
|
垃圾回收时间统计(GC) |
DataNode每分钟的垃圾回收(GC)所占用的时间。 |
12000ms |
||
Hive |
HQL |
Hive执行成功的HQL百分比 |
Hive执行成功的HQL百分比。 |
90.0% |
Background |
Background线程使用率 |
Background线程使用率。 |
90% |
|
GC |
MetaStore的总GC时间 |
MetaStore的总GC时间。 |
12000ms |
|
HiveServer的总GC时间 |
HiveServer的总GC时间。 |
12000ms |
||
容量 |
Hive已经使用的HDFS空间占可使用空间的百分比 |
Hive已经使用的HDFS空间占可使用空间的百分比。 |
85.0% |
|
CPU和内存 |
MetaStore直接内存使用率统计 |
MetaStore直接内存使用率统计。 |
95% |
|
MetaStore非堆内存使用率统计 |
MetaStore非堆内存使用率统计。 |
95% |
||
MetaStore堆内存使用率统计 |
MetaStore堆内存使用率统计。 |
95% |
||
HiveServer直接内存使用率统计 |
HiveServer直接内存使用率统计。 |
95% |
||
HiveServer非堆内存使用率统计 |
HiveServer非堆内存使用率统计。 |
95% |
||
HiveServer堆内存使用率统计 |
HiveServer堆内存使用率统计。 |
95% |
||
Session |
连接到HiveServer的session数占最大允许session数的百分比 |
连接到HiveServer的session数占最大允许session数的百分比。 |
90.0% |
|
Kafka |
分区 |
未完全同步的Partition百分比 |
未完全同步的Partition数占Partition总数的百分比。 |
50% |
其他 |
Partition不可用百分比 |
Kafka各个Topic的Partition不可用占比。 |
40% |
|
broker上用户连接数使用率 |
broker上用户连接数使用率。 |
80% |
||
磁盘 |
Broker磁盘使用率 |
Broker数据目录所在磁盘的磁盘使用率。 |
80.0% |
|
Broker磁盘IO使用率 |
Broker数据目录所在磁盘的磁盘IO使用率。 |
80% |
||
进程 |
Broker每分钟的垃圾回收时间统计(GC) |
Broker进程每分钟垃圾回收(GC)所占用的时间。 |
12000ms |
|
Kafka堆内存使用率 |
Kafka堆内存使用百分比统计。 |
95% |
||
Kafka直接内存使用率 |
Kafka直接内存使用百分比统计。 |
95% |
||
Loader |
内存 |
Loader堆内存使用率 |
Loader堆内存使用率。 |
95% |
Loader直接内存使用率统计 |
Loader直接内存使用率统计。 |
80.0% |
||
Loader非堆内存使用率 |
Loader非堆内存使用率。 |
80% |
||
GC |
Loader的总GC时间 |
Loader的总GC时间。 |
12000ms |
|
Mapreduce |
垃圾回收 |
垃圾回收时间统计(GC) |
垃圾回收时间统计(GC)。 |
12000ms |
资源 |
JobHistoryServer直接内存使用百分比统计 |
JobHistoryServer直接内存使用百分比统计。 |
90% |
|
JobHistoryServer非堆内存使用百分比统计 |
JobHistoryServer非堆内存使用百分比统计。 |
90% |
||
JobHistoryServer堆内存使用百分比统计 |
JobHistoryServer堆内存使用百分比统计。 |
95% |
||
Oozie |
内存 |
Oozie堆内存使用率 |
Oozie堆内存使用率。 |
95.0% |
Oozie直接内存使用率 |
Oozie直接内存使用率。 |
80.0% |
||
Oozie非堆内存使用率 |
Oozie非堆内存使用率。 |
80% |
||
GC |
Oozie垃圾回收(GC)总时间 |
Oozie垃圾回收(GC)总时间。 |
12000ms |
|
Spark/Spark2x |
内存 |
JD BCS erver2x堆内存使用率统计 |
JDB CS erver2x堆内存使用率统计。 |
95% |
JDBCServer2x直接内存使用率统计 |
JDBCServer2x直接内存使用率统计。 |
95% |
||
JDBCServer2x非堆内存使用率统计 |
JDBCServer2x非堆内存使用率统计 |
95% |
||
JobHistory2x直接内存使用率统计 |
JobHistory2x直接内存使用率统计。 |
95% |
||
JobHistory2x非堆内存使用率统计 |
JobHistory2x非堆内存使用率统计。 |
95% |
||
JobHistory2x堆内存使用率统计 |
JobHistory2x堆内存使用率统计。 |
95% |
||
IndexServer2x直接内存使用率统计 |
IndexServer2x直接内存使用率统计。 |
95% |
||
IndexServer2x堆内存使用率统计 |
IndexServer2x堆内存使用率统计。 |
95% |
||
IndexServer2x非堆内存使用率统计 |
IndexServer2x非堆内存使用率统计。 |
95% |
||
GC次数 |
JDBCServer2x的Full GC次数 |
JDBCServer2x进程的Full GC次数。 |
12 |
|
JobHistory2x的Full GC次数 |
JobHistory2x进程的Full GC次数。 |
12 |
||
IndexServer2x的Full GC次数 |
IndexServer2x进程的Full GC次数。 |
12 |
||
GC时间 |
JDBCServer2x的总GC时间 |
JDBCServer2x的总GC时间。 |
12000ms |
|
JobHistory2x的总GC时间 |
JobHistory2x的总GC时间。 |
12000ms |
||
IndexServer2x的总GC时间 |
IndexServer2x的总GC时间。 |
12000ms |
||
Storm |
集群 |
Supervisor数 |
统计周期内集群中可用的Supervisor数目。 |
1 |
已用Slot比率 |
统计周期内集群中可用的slot使用率。 |
80.0% |
||
Nimbus |
Nimbus堆内存使用率 |
Nimbus堆内存使用百分比统计。 |
80% |
|
Yarn |
资源 |
NodeManager直接内存使用百分比统计 |
NodeManager直接内存使用百分比统计。 |
90% |
NodeManager堆内存使用百分比统计 |
NodeManager堆内存使用百分比统计。 |
95% |
||
NodeManager非堆内存使用百分比统计 |
NodeManager非堆内存使用百分比统计。 |
90% |
||
ResourceManager直接内存使用百分比统计 |
ResourceManager直接内存使用百分比统计。 |
90% |
||
ResourceManager堆内存使用百分比统计 |
ResourceManager堆内存使用百分比统计。 |
95% |
||
ResourceManager非堆内存使用百分比统计 |
ResourceManager非堆内存使用百分比统计。 |
90% |
||
垃圾回收 |
垃圾回收时间统计(GC) |
NodeManager每分钟的垃圾回收(GC)所占用的时间。 |
12000ms |
|
垃圾回收时间统计(GC) |
ResourceManager每分钟的垃圾回收(GC)所占用的时间。 |
12000ms |
||
其他 |
root队列下失败的任务数 |
root队列下失败的任务数。 |
50 |
|
root队列下被杀死的任务数 |
root队列下被杀死的任务数。 |
50 |
||
CPU和内存 |
挂起的内存量 |
挂起的内存量。 |
83886080MB |
|
任务 |
正在挂起的任务 |
正在挂起的任务。 |
60 |
|
ZooKeeper |
连接 |
ZooKeeper连接数使用率 |
ZooKeeper连接数使用百分比统计。 |
80% |
CPU和内存 |
ZooKeeper堆内存使用率 |
ZooKeeper堆内存使用百分比统计。 |
95% |
|
ZooKeeper直接内存使用率 |
ZooKeeper直接内存使用百分比统计。 |
80% |
||
GC |
ZooKeeper每分钟的垃圾回收时间统计(GC) |
ZooKeeper每分钟的垃圾回收时间统计(GC)。 |
12000ms |
|
Ranger |
GC |
UserSync垃圾回收(GC)时间 |
UserSync垃圾回收(GC)时间。 |
12000ms |
RangerAdmin垃圾回收(GC)时间 |
RangerAdmin垃圾回收(GC)时间。 |
12000ms |
||
TagSync垃圾回收(GC)时间 |
TagSync垃圾回收(GC)时间。 |
12000ms |
||
CPU和内存 |
UserSync非堆内存使用率 |
UserSync非堆内存使用百分比统计。 |
80.0% |
|
UserSync直接内存使用率 |
UserSync直接内存使用百分比统计。 |
80.0% |
||
UserSync堆内存使用率 |
UserSync堆内存使用百分比统计。 |
95.0% |
||
RangerAdmin非堆内存使用率 |
RangerAdmin非堆内存使用百分比统计。 |
80.0% |
||
RangerAdmin堆内存使用率 |
RangerAdmin堆内存使用百分比统计。 |
95.0% |
||
RangerAdmin直接内存使用率 |
RangerAdmin直接内存使用百分比统计。 |
80.0% |
||
TagSync直接内存使用率 |
TagSync直接内存使用百分比统计。 |
80.0% |
||
TagSync非堆内存使用率 |
TagSync非堆内存使用百分比统计。 |
80.0% |
||
TagSync堆内存使用率 |
TagSync堆内存使用百分比统计。 |
95.0% |
||
ClickHouse |
集群配额 |
Clickhouse服务在ZooKeeper的数量配额使用率 |
ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 |
90% |
Clickhouse服务在ZooKeeper的容量配额使用率 |
ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 |
90% |
||
IoTDB |
GC |
IoTDBServer垃圾回收时间 |
IoTDBServer垃圾回收所占用的时间 |
12000ms |
CPU和内存 |
IoTDBServer堆内存使用率 |
IoTDBServer堆内存使用百分比统计 |
90% |
|
IoTDBServer直接内存使用率 |
IoTDBServer直接内存使用百分比统计 |
90% |
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 什么是Manager_Manager的功能_MRS运维管理
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- 什么是主机监控_免费云监控_专业监控
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- MapReduce服务_什么是Kafka_如何使用Kafka
- MapReduce服务_什么是MapReduce服务_什么是HBase
- MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper
- MRS优势_什么是MRS_MRS功能