检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
按需计费 节点数 配置各节点组内的节点个数。 Master节点组的节点数量最少为3个,最多不超过9个。 Core节点组至少存在一个,Core节点和Task节点的数量之和不能超过10000个。 “集群类型”为“自定义集群”时,可以单击“添加节点组”,添加多个节点组。
ALM-18002 NodeManager心跳丢失(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的NodeManager节点数,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值范围。当检测到“丢失的节点数”的值超出阈值范围时产生该告警。
ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,发生被终止的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务被终止的数量大于设定的阈值时,会发生该告警。
ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值 告警解释 系统每30秒周期性检查FE中和BE交互的线程池中正在排队的任务数,当检查到该值超出阈值(默认值为10)时产生该告警。
ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值 告警解释 系统每30秒周期性检查FE中处理任务的线程池中正在排队的任务数,当检查到该值超出阈值(默认值为10)时产生该告警。该线程池为NIO MySQL Server用于处理任务的线程池。
配置Executor核数。 每个Executor多个核同时能跑多个task,相当于增大了任务的并发度。但是由于所有核共用Executor的内存,所以要在内存和核数之间做好平衡。
ALM-18003 NodeManager不健康(2.x及以前版本) 告警解释 系统每30秒周期性检测异常NodeManager节点数,并把异常节点数和阈值相比较。“非健康的节点数”指标默认提供一个阈值范围。当检测到“非健康的节点数”的值超出阈值范围时产生该告警。
配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 遇到类型转换错误,当前数据保存为脏数据。 固定宽度文件输入 原始数据包含NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。
ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,运行失败的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务运行失败的数量大于设定的阈值时候,会发生该告警。
对系统的影响 资源组排队超过阈值可能导致大量任务处于排队状态,Presto任务时间超过预期,当资源组排队数超过该组最大排队数(maxQueued)时,会导致新的任务无法执行。 可能原因 资源组配置不合理或该资源组下提交的任务过多。
使用Kafka Eagle对接MRS Kafka 应用场景 Kafka Eagle是一款分布式、高可用的Kafka监控软件,提供丰富的Kafka监控指标,例如:Kafka集群的Broker数、Topic数、Consumer数、Topic LogSize Top10、Topic Capacity
不可与“Map数”同时配置。当使用关系型数据库连接器时,不支持“Map数据块大小”,请配置“Map数”。 SPARK 输出目录 仅支持SparkSQL存取Hive数据,指定数据导入到Hive里存储的保存目录。 Map数 配置数据操作的MapReduce任务中同时启动的map数量。
当检查到真随机数方式已经配置或者伪随机数方式中配置了随机数参数,或者两者均没有配置但是五次检查中,至少有一次熵值大于等于100,则告警恢复。 MRS 3.3.1及之后版本,告警名称从“系统熵值不足”变成“操作系统熵值不足”。
节点数及规格 调研现有集群节点数和节点规格。 如果集群硬件异构,请收集多种规格和对应节点数,参见表2。
ALM-18003 NodeManager不健康 告警解释 系统每30秒周期性检测不健康NodeManager节点,并把不健康节点数和阈值相比较。“不健康的节点数”指标默认提供一个阈值。当检测到“不健康的节点数”的值超出阈值时产生该告警。
使用BulkLoad工具查询HBase表的行统计数 操作场景 HBase BulkLoad工具支持根据rowkey的命名规则、rowkey的范围、字段名以及字段值统计符合条件的行数。 操作步骤 直接执行如下命令统计满足如下条件的行数。
ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,Hive SQL执行失败数超过阈值。该告警每10min钟检测一次,如果上个10min周期内,发生Hive SQL执行失败数大于设定的阈值时候,会发生该告警。
no maxClientCnxns ZooKeeper的最大连接数,在连接数多的情况下,建议增加。 2000 LOG_LEVEL 日志级别,在调试的时候,可以改为DEBUG。
ALM-18002 NodeManager心跳丢失 告警解释 系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。
true Map数 配置数据操作的MapReduce任务中同时启动的map数量。参数值必须小于或等于3000。 20 Map数据块大小 HBase不支持此参数,请配置“Map数”。