检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存的比值,例如500000/4(默认值),表示每4GB堆内存最大允许500000个输入文件。在输入的文件数超出此限制时则会发生此错误。 解决办法 进入Hive服务配置页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > Hive > 服务配置”,单击
sql.uselocalFileCollect开启的情况下生效。直接序列化的方式,还是间接序列化的方式保存结果数据到磁盘。 优点:针对分区数特别多的表查询结果汇聚性能优于直接使用结果数据保证在磁盘的方式。 缺点:和spark.sql.uselocalFileCollect开启时候的缺点一样。
channel又达到了过期时间,该channel就被终止了,AM端感知到channel被终止后认为driver失联,然后整个应用停止。 解决办法:在Spark客户端的“spark-defaults.conf”文件中或通过set命令行进行设置。参数配置时要保证channel过期时间(spark
uid=20032(test) gid=10001(hadoop) groups=10001(hadoop),9998(ficommon),10003(kafka) 解决办法 MRS Manager界面操作: 登录MRS Manager。 选择“系统设置 > 用户管理”。 在操作用户对应的“操作”列,单击“修改”。
itor.chore (SplitLogManager.java:745) 节点上下电,RegionServer的wal分裂失败导致。 解决办法 停止HBase组件。 通过hdfs fsck命令检查/hbase/WALs文件的健康状态。 hdfs fsck /hbase/WALs
) GROUP BY day 多流join场景建议join字段设置为主键 如果join字段不为主键,会导致Flink shuffle task按照hash进行数据处理,导致在Flink中无法保序。同时状态后端中同一个join key字段会保留多份,join时会产生笛卡尔积。 比如A表字段为“id
table_name;,进行全表查询,表内数据过多。 beeline默认启动内存128M,查询时返回结果集过大,导致beeline无法承载导致。 解决办法 执行select count(*) from table_name;前确认需要查询的数据量大小,确认是否需要在beeline中显示如此数量级的数据。
Spark JDBCServer接口介绍 简介 JDBCServer是Hive中的HiveServer2的另外一个实现,它底层使用了Spark SQL来处理SQL语句,从而比Hive拥有更高的性能。 JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServ
点。 方案架构 租户是MRS大数据平台的核心概念,使传统的以用户为核心的大数据平台向以多租户为核心的大数据平台转变,更好的适应现代企业多租户应用环境,如图1所示。 图1 以用户为核心的平台和以多租户为核心的平台 对于以用户为核心的大数据平台,用户直接访问并使用全部的资源和服务。
compaction&cleaning配置 参数 描述 默认值 hoodie.clean.automatic 是否执行自动clean。 true hoodie.cleaner.policy 要使用的清理策略。Hudi将删除旧版本的parquet文件以回收空间。 任何引用此版本文件
例,个别场景下依然需要重构,可参见下一条规则)。 正确示例: 注意该实例中提供的以Map形式缓存Table实例的方法,未必通用。这与多线程多Table实例的设计方案有关。如果确定一个Table实例仅仅可能会被用于一个线程,而且该线程也仅有一个Table实例的话,就无须使用Map。这里提供的思路仅供参考。
此时用户没有生效,或者sssd版本存在bug的情况下,某些情况下在ZooKeeper节点会出现用户无效的情况,导致创建Topic异常。 解决办法 重启sssd/nscd服务。 Red Hat/Euler service sssd restart SUSE sevice nscd restart
enabled”为“true”的时候才开启SSL加密,否则不开启。 Job与Job之间的联系可能是多对多的关系,对于每个NettySink和NettySource算子的并发度而言,是一对多的关系,如图3所示。 图3 关系图 父主题: Flink
认证文件为准备集群认证用户信息获取的keytab认证文件“user.keytab”和“krb5.conf”。 hbase-examples/hbase-example(多集群互信场景) 将互信场景下的同名用户其中一个集群的认证凭据及其配置文件放入“../src/main/resources/hadoopDom
Spark JDBCServer接口介绍 简介 JDBCServer是Hive中的HiveServer2的另外一个实现,它底层使用了Spark SQL来处理SQL语句,从而比Hive拥有更高的性能。 JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServ
6m。 如果配置了topology.worker.gc.childopts则服务端参数worker.gc.childopts会被替换。 解决办法 如果想要修改拓扑的JVM参数,可以在命令中直接修改topology.worker.gc.childopts这个参数或者在服务端修改该参数,当topology
存继承了父进程的内存。 当有多个join执行的时候,启动多个localtask,如果机器内存不够,就会导致启动localtask失败。 解决办法 进入Hive服务配置页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > Hive > 服务配置”,单击
典型场景:从关系型数据库导入数据到Hive 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到Hive。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的Hive表。 获取关系型数据库使用的用户和密码。 检查磁
使用Loader从关系型数据库导入数据到Hive 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到Hive。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的Hive表。 获取关系型数据库使用的用户和密码。
assignment 通过Manager查询Broker创建Topic相关配置。 经确认,对该Topic操作的应用没有停止。 解决方法参考4。 解决办法 ZooKeeper连接失败导致。 Kafka客户端连接ZooKeeper服务超时。检查客户端到ZooKeeper的网络连通性。 网络连