检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
已超出阈值。此时,会出现上述错误。 图1 应用场景 解决措施: 方式一:推荐优化Spark Streaming应用程序中定义的批次时间,降低批次时间,可避免超过Kafka定义的阈值。一般建议以5-10秒/次为宜。 方式二:将Kafka的阈值调大,建议在FusionInsight
已超出阈值。此时,会出现上述错误。 图1 应用场景 解决措施: 方式一:推荐优化Spark Streaming应用程序中定义的批次时间,降低批次时间,可避免超过Kafka定义的阈值。一般建议以5-10秒/次为宜。 方式二:将Kafka的阈值调大,建议在FusionInsight
'info:modify_time','2021-03-03 15:20:39' 上述数据的modify_time列可设置为样例程序启动后30分钟内的时间值(此处的30分钟为样例程序默认的同步间隔时间,可修改)。 put 'hbase_table','9','info:modify_time','2021-03-03
删除大量文件之后立刻重启NameNode(例如删除100万个文件),NameNode启动慢。 回答 由于在删除了大量文件之后,DataNode需要时间去删除对应的Block。当立刻重启NameNode时,NameNode会去检查所有DataNode上报的Block信息,发现已删除的Blo
[-help] delete子命令删除key的所有版本,key是由provider中的<keyname>参数指定,provider是由-provider参数指定。除非-f被指定否则该命令需要用户确认。 查看密钥 hadoop key list[-provider <provider>]
[-help] delete子命令删除key的所有版本,key是由provider中的<keyname>参数指定,provider是由-provider参数指定。除非-f被指定否则该命令需要用户确认。 查看密钥 hadoop key list[-provider <provider>]
[-help] delete子命令删除key的所有版本,key是由provider中的<keyname>参数指定,provider是由-provider参数指定。除非-f被指定否则该命令需要用户确认。 查看密钥 hadoop key list[-provider <provider>]
时运行。 90% MetaStore的总GC时间 16007 Hive GC时间超出阈值 GC时间超出阈值,会影响到Hive数据的读写。 12000ms HiveServer的总GC时间 16007 Hive GC时间超出阈值 GC时间超出阈值,会影响到Hive数据的读写。 12000ms
GROUP BY `name`, window_start, window_end 该特性还支持窗口接收到迟到数据时输出当前窗口的开始时间和结束时间,可通过添加在Hint中'window.start.field'和'window.end.field'使用,字段类型必须是timestamp,示例如下:
表示作业运行使用的时间。 “Submitted” 表示作业提交到MRS集群的时间。 如果MRS集群安装了Spark组件,则默认会启动一个作业“Spark-JDBCServer”,用于执行任务。 搜索作业 在“Job Browser”的“Username”或“Text”,输入指定的字符,系统会自动搜索包含此关键字的全部作业。
慢,使barrier在缓存中积压,快照的制作时间过长,导致window算子在规定时间内没有向CheckpointCoordinator报告快照制作完成,CheckpointCoordinator认为快照制作失败,如图2所示。 图1 时间监控信息 图2 关系图 回答 Flink引入
慢,使barrier在缓存中积压,快照的制作时间过长,导致window算子在规定时间内没有向CheckpointCoordinator报告快照制作完成,CheckpointCoordinator认为快照制作失败,如图2所示。 图1 时间监控信息 图2 关系图 回答 Flink引入
Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日。 例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。 对trip_data进行按时间维度统计汇总时,只需要对局部数据扫描,大大提升性能。
retain-seconds 汇聚日志的保存时间。单位:秒。 设置为-1时,表示HDFS上面的Container聚合日志将永久保留。 设置为0或正数时,表示HDFS上面的Container聚合日志将保留这段时间,超时将被删除。 说明: 当时间设置太短时,有可能会增加NameNode的
partions set location指定为一个已有库的路径时,执行成功,有数据丢失风险。 Spark创建库时指定location路径和已有库路径一致时没有拦截,校验默认关闭。 spark未把.db路径加入黑名单保护列表会存在建表建分等指定location存在数据丢失风险。 spark
append:追加,比如对大于last-value指定的值之后的记录进行追加导入。 lastmodified:最后的修改时间,追加last-value指定的日期之后的记录。 --last-value 指定一个值,用于标记增量导入 --input-null-string 替换null字符串,如果没有指定,则字符串null将被使用。
w databases”,过滤线程名包含“HiveServer2-Handler-Pool”的两条记录,第一条记录为开始编译时间,第二条记录为结束编译时间。 根据SQL变慢前后的审计记录可判断是否是HiveServer编译变慢。 图1 HiveServer正在运行的SQL 访问HDFS变慢
已超出阈值。此时,会出现上述错误。 图1 应用场景 解决措施: 方式一:推荐优化Spark Streaming应用程序中定义的批次时间,降低批次时间,可避免超过Kafka定义的阈值。一般建议以5-10秒/次为宜。 方式二:将Kafka的阈值调大,建议在FusionInsight
已超出阈值。此时,会出现上述错误。 图1 应用场景 解决措施: 方式一:推荐优化Spark Streaming应用程序中定义的批次时间,降低批次时间,可避免超过kafka定义的阈值。一般建议以5-10秒/次为宜。 方式二:将kafka的阈值调大,建议在MRS Manager中的K
告警参考处理无效。 问题现象 集群出现告警“ALM-43006 JobHistory进程堆内存使用超出阈值”并且按照指导处理以后,运行一段时间又会出现同样的告警。 原因分析 可能存在JobHistory内存泄露问题,需要安装相应的补丁修复。 处理步骤 适当调大JobHistory进程堆内存。