检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12047 网络读包错误率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读包错误率,并把实际错误率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包错误率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 >
ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务内存使用状态,当检测到ZooKeeper实例内存使用量超出阈值(最大内存的百分之八十)时产生该告警。 内存使用率小于阈值时,告警恢复。 告警属性 告警ID
ALM-27004 DBService主备数据不同步(2.x及以前版本) 告警解释 DBService主备数据不同步,每10秒检查一次主备数据同步状态,如果连续6次查不到同步状态,或者同步状态不正常,产生告警。 当同步状态正常,告警恢复。 告警属性 告警ID 告警级别 可自动清除
lShuffle的时候,Spark将借用NodeManager传输Shuffle数据,因此NodeManager的内存将成为瓶颈。 在当前版本的FusionInsight中,NodeManager的默认内存只有1G,在数据量比较大(1T以上)的Spark任务下,内存严重不足,消息
cache table使用指导 问题 cache table的作用是什么?cache table时需要注意哪些方面? 回答 Spark SQL可以将表cache到内存中,并且使用压缩存储来尽量减少内存压力。通过将表cache,查询可以直接从内存中读取数据,从而减少读取磁盘带来的内存开销。
ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,发生被终止的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务被终止的数量大于设定的阈值时,会发生该告警。如果在下个10m
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面 问题 FusionInsight版本中,在客户端采用yarn-client模式运行Spark应用,然后从Yarn的页面打开该应用的Web UI界面,出现下面的错误: 从YARN ResourceManager的日志看到:
ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,Hive SQL执行失败数超过阈值。该告警每10min钟检测一次,如果上个10min周期内,发生Hive SQL执行失败数大于设定的阈值时候,会发生该告警。在下个10min周期,如果运行失败的Hive
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS NameNode内存使用率,并把实际的HDFS NameNode内存使用率和阈值相比较。HDFS NameNode内存使用率指标默认提供一个阈值范围。当HDFS
ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS DataNode内存使用率,并把实际的HDFS DataNode内存使用率和阈值相比较。HDFS DataNode内存使用率指标默认提供一个阈值范围。当HDFS
ALM-27003 DBService主备节点间心跳中断(2.x及以前版本) 告警解释 DBService主节点或备节点未收到对端的心跳消息后,系统产生告警。 当心跳恢复后,该告警恢复。 告警属性 告警ID 告警级别 可自动清除 27003 严重 是 告警参数 参数名称 参数含义
ALM-12011 Manager主备节点同步数据异常(2.x及以前版本) 告警解释 当备Manager无法与主Manager同步文件时,产生该告警。 当备Manager与主Manager正常同步文件时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12011 致命 是 告警参数
ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。
ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程非堆内存使用状态,当检测到JobHistory进程非堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Storm Nimbus堆内存使用率,并把实际的Storm Nimbus堆内存使用率和阈值相比较。当Storm Nimbus堆内存使用率超出阈值(默认值为80%)时产生该告警。
ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JDBCServer进程的GC时间,当检测到JDBCServer进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 >
Spark2x导出带有相同字段名的表,结果导出失败 问题 在Spark2x的spark-shell上执行如下语句失败: val acctId = List(("49562", "Amal", "Derry"), ("00000", "Fred", "Xanadu")) val rddLeft
ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测执行的HiveQL成功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。
ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JDBCServer进程堆内存使用状态,当检测到JDBCServer进程堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除