-
NameNode节点存在ALM-12027主机PID使用率超过阈值告警 - MapReduce服务 MRS
原因分析 使用以下命令统计节点进程的线程数并排序。 ps -efT | awk '{print $2}' |sort -n |uniq -c |sort -n 执行后结果如下: 查看启动线程数最多的进程,案例中进程2346为NameNode进程,启动了5.4万线程,且持续增长。
-
配置HDFS DataNode数据均衡 - MapReduce服务 MRS
如果DataNode节点的带宽无法达到指定的最大带宽,可以在FusionInsight Manager修改HDFS的参数“dfs.datanode.balance.max.concurrent.moves”,将每个DataNode节点执行均衡的线程数修改为“32”,并重启HDFS服务
-
Flume开源增强特性 - MapReduce服务 MRS
可以配置将指定的行数作为一个Event,而不仅是一行,提高了代码的执行效率以及减少写入磁盘的次数。 传输超大二进制文件。Flume根据当前内存情况,自动调整传输超大二进制文件的内存占用情况,不会导致Out of Memory(OOM)的出现。 支持定制传输前后准备工作。
-
ALM-18002 NodeManager心跳丢失(2.x及以前版本) - MapReduce服务 MRS
ALM-18002 NodeManager心跳丢失(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的NodeManager节点数,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值范围。当检测到“丢失的节点数”的值超出阈值范围时产生该告警。
-
ALM-18003 NodeManager不健康(2.x及以前版本) - MapReduce服务 MRS
ALM-18003 NodeManager不健康(2.x及以前版本) 告警解释 系统每30秒周期性检测异常NodeManager节点数,并把异常节点数和阈值相比较。“非健康的节点数”指标默认提供一个阈值范围。当检测到“非健康的节点数”的值超出阈值范围时产生该告警。
-
Loader算子数据处理规则 - MapReduce服务 MRS
配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 遇到类型转换错误,当前数据保存为脏数据。 固定宽度文件输入 原始数据包含NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。
-
ALM-45329 Presto Coordinator资源组排队任务超过阈值 - MapReduce服务 MRS
对系统的影响 资源组排队超过阈值可能导致大量任务处于排队状态,Presto任务时间超过预期,当资源组排队数超过该组最大排队数(maxQueued)时,会导致新的任务无法执行。 可能原因 资源组配置不合理或该资源组下提交的任务过多。
-
购买自定义集群 - MapReduce服务 MRS
节点数 配置各节点组内的节点个数。 Master节点组:Master实例数量最少3个,最多不超过9个。 Core节点至少存在一个,Core节点和Task节点的数量之和不能超过10000个。 可以单击添加节点组,单击修改节点的实例规格,单击删除已添加的节点组。
-
调整Spark Core进程参数 - MapReduce服务 MRS
配置Executor核数。 每个Executor多个核同时能跑多个task,相当于增大了任务的并发度。但是由于所有核共用Executor的内存,所以要在内存和核数之间做好平衡。
-
使用Kafka Eagle对接MRS Kafka - MapReduce服务 MRS
使用Kafka Eagle对接MRS Kafka Kafka Eagle简介 Kafka Eagle是一款分布式、高可用的Kafka监控软件,提供丰富的Kafka监控指标,例如:Kafka集群的Broker数、Topic数、Consumer数、Topic LogSize Top10
-
Storm健康检查指标项说明 - MapReduce服务 MRS
Storm健康检查指标项说明 工作节点数 指标项名称:Supervisor数 指标项含义:检查集群中可用的Supervisor数,若集群中可用的Supervisor数小于1,则认为不健康。
-
ZooKeeper常用配置参数 - MapReduce服务 MRS
no maxClientCnxns ZooKeeper的最大连接数,在连接数多的情况下,建议增加。 2000 LOG_LEVEL 日志级别,在调试的时候,可以改为DEBUG。
-
ALM-18003 NodeManager不健康 - MapReduce服务 MRS
ALM-18003 NodeManager不健康 告警解释 系统每30秒周期性检测不健康NodeManager节点,并把不健康节点数和阈值相比较。“不健康的节点数”指标默认提供一个阈值。当检测到“不健康的节点数”的值超出阈值时产生该告警。
-
ALM-18002 NodeManager心跳丢失 - MapReduce服务 MRS
ALM-18002 NodeManager心跳丢失 告警解释 系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。
-
ALM-12040 系统熵值不足 - MapReduce服务 MRS
当检查到真随机数方式已经配置或者伪随机数方式中配置了随机数参数,或者两者均没有配置但是五次检查中,至少有一次熵值大于等于100,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12040 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。
-
使用BulkLoad工具查询HBase表的行统计数 - MapReduce服务 MRS
使用BulkLoad工具查询HBase表的行统计数 操作场景 支持根据rowkey的命名规则、rowkey的范围、字段名以及字段值统计符合条件的行数。 操作步骤 直接执行如下命令统计满足如下条件的行数。
-
ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本) - MapReduce服务 MRS
ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,Hive SQL执行失败数超过阈值。该告警每10min钟检测一次,如果上个10min周期内,发生Hive SQL执行失败数大于设定的阈值时候,会发生该告警。
-
使用Loader导入数据至MRS集群 - MapReduce服务 MRS
不可与“Map数”同时配置。当使用关系型数据库连接器时,不支持“Map数据块大小”,请配置“Map数”。 SPARK 输出目录 仅支持SparkSQL存取Hive数据,制定数据导入到Hive里存储的保存目录。 Map数 配置数据操作的MapReduce任务中同时启动的map数量。
-
ALM-45442 SQL并发数过高 - MapReduce服务 MRS
ALM-45442 SQL并发数过高 告警解释 告警模块按30秒周期检测ClickHouse服务的实际并发数,若并发数超过界面配置的并发阈值,系统产生此告警。 当系统检测到实际并发数低于并发阈值时,告警恢复。
-
数据迁移到MRS前信息收集 - MapReduce服务 MRS
节点数及规格 调研现有集群节点数和节点规格。 如果集群硬件异构,请收集多种规格和对应节点数,参见表2。