检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
topic) { super("KafkaConsumerExample", false); // 初始化consumer启动所需的配置参数,详见代码。 Properties props = initProperties(); consumer = new
topic) { super("KafkaConsumerExample", false); // 初始化consumer启动所需的配置参数,详见代码。 Properties props = initProperties(); consumer = new
RCFILE,SEQUENCEFILE等存储格式,并支持自定义扩展。 多种客户端连接方式,支持JDBC接口。 Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。 父主题: Hive应用开发概述
备份MRS集群组件数据 备份Manager数据(MRS 2.x及之前版本) 备份Manager数据(MRS 3.x及之后版本) 备份CDL业务数据 备份ClickHouse元数据 备份ClickHouse业务数据 备份DBService元数据 备份Doris业务数据 备份Flink元数据
命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。当前用户为准备HBase应用开发用户时增加的开发用户。 人机用户:kinit MRS集群用户 例如:kinit hbaseuser 机机用户:kinit -kt 认证凭据路径 MRS集群用户 例如:kinit
收集异常故障日志时间长短可以咨询技术支持人员。 单击“下载”,实时转储的系统表会被保存在本地。 收集一键转储系统表日志 使用root用户后台登录任一ClickHouseServer节点,进入到sbin目录下。 cd ${BIGDATA_HOME}/FusionInsight_C
开发Impala用户自定义函数 当Impala的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。
MRS集群Task节点弹性伸缩 MRS集群Task节点弹性伸缩概述 添加MRS集群Task节点弹性伸缩策略 管理MRS集群弹性伸缩策略 父主题: MRS集群容量调整
性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似,可参考Spark Core性能调优。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据hudi的数据大小(dataSize)进行调整。 dataSize如果只有几个G,
consume.mode = INCREMENTAL;,但该参数仅限于增量视图查询,不能用于Hudi表的其他类型查询,和其他表的查询。 恢复配置可设置set hoodie.hudicow.consume.mode = SNAPSHOT;或任意值。 父主题: Hudi读操作
Hudi性能调优 性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据Hudi的数据大小(dataSize)进行调整。 dataSize如果只有几个G,推荐跑单节点运行
DBServer启动失败 问题背景与现象 DBService组件启动失败,重启还是失败,实例状态一直为正在恢复状态。 图1 DBService 的状态 原因分析 查看DBService的日志/var/log/Bigdata/dbservice/DB/gs_ctl-current.log,报如下错误。
tab_a WHERE id IN (SELECT id FROM tab_b WHERE name = 'xx'); 这里说的大表为条件过滤后的总数据量,千万级以上的数据量可定义为大表。 关联查询必须大表join小表 对于ClickHouse来说,原则上需要把多表join模型提前加
数是static函数,当用例中的KafkaPartitioner对象是非static时,ClosureCleaner::clean函数无法访问KafkaDelegatePartitioner类内的非static成员变量kafkaPartitioner,导致报错。 解决方法如下,两者任选其一:
数是static函数,当用例中的KafkaPartitioner对象是非static时,ClosureCleaner::clean函数无法访问KafkaDelegatePartitioner类内的非static成员变量kafkaPartitioner,导致报错。 解决方法如下,两者任选其一:
为“9000 65500”,临时端口范围与MRS产品端口范围重叠,因为安装时未进行preinstall操作。 解决办法 执行kill -9 DFSZkFailoverController的pid, 使得其重启后绑定其它端口,然后重启Restoring的RegionServer。 父主题:
MRS服务暂不支持集群创建完成后手动开启和关闭Kerberos服务,如需更换Kerberos认证状态,建议重新创建MRS集群,然后进行数据迁移。 父主题: 用户认证及权限类
的hash分桶,如图1所示。 图1 小文件合并 操作步骤 要启动小文件优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.files.maxPartitionBytes 在读取文件时,将单个分区打包的最大字节数。
的hash分桶,如图1所示。 图1 小文件合并 操作步骤 要启动小文件优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.files.maxPartitionBytes 在读取文件时,将单个分区打包的最大字节数。
examples.KafkaWordCount。 当Streaming DataFrame/Dataset中有新的可用数据时,outputMode用于配置写入Streaming接收器的数据。 object KafkaWordCount { def main(args: Array[String]):