检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink on Hudi作业参数建议 Hudi表作为Source表时建议设置限流 Hudi表作为Source表,防止上限超过流量峰值,导致作业出现异常带来不稳定因素,因此建议设置限流,限流上限应该为业务上线压测的峰值。 使用时需添加如下参数: 'read.rate.limit'
于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因此,小文件问题是制约Hadoop集群规模扩展的关键问题。 本工具主要有如下两个功能: 扫描表中有多少低于用户设定阈值的小文件,返回该表目录中所有数据文件的平均大小。
> 配置 > 全部配置”,搜索参数“KAFKAUI_HEAP_OPTS”。在参数值中添加“ -Dfastjson.parser.safeMode=true”(注意与前参数有空格),如下所示: 例如原参数值为:“-Xmx4G -Xms4G”,则修改后的参数值为:“-Xmx4G -Xms4G
检查GC_OPTS相关参数存在多余空格,如-D sun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE。 解决办法 针对memstore、cache修改配置参数后,重启HBase服务成功。 针对GC_OPTS配置错误,修改参数后重启HBase服务成功。
childopts,则该参数会与服务端参数worker.gc.childopts共同配置,但是后面的相同参数会将前面的覆盖掉,如上面图有两个-Xmx,-Xmx1G会覆盖掉-Xmx4096m。 如果配置了topology.worker.gc.childopts则服务端参数worker.gc
Spark增量读取Hudi参数规范 规则 增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式 如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询 示例 set hoodie.tableName.consume.mode=INCREMENT
提交Spark任务时提示参数格式错误 问题现象 用户在使用Spark组件时,提交集群任务运行失败,提示参数格式错误。 原因分析 执行的命令包含了非法字符。 上传的jar包属主属组异常。 处理步骤 检查用户执行命令./bin/spark-submit --class cn.interf
Flink常见参数说明 表1 Flink常见参数说明 参数名称 参数描述 建议值 说明 -c 指定主类名。 根据实际填写 必填 -yjm JobManager进程内存,默认值:2GB。 根据实际填写 选填 -ytm TaskManager进程内存,默认值:4GB。 根据实际填写 选填
ClickHouse参数调优实践 表1 ClickHouse参数调优汇总 参数名 参数描述 默认值 建议值 是否需要重启生效 max_memory_usage_for_all_queries 单台服务器上所有查询的内存使用量,默认没有限制。建议根据机器的总内存,预留一部分空间,防止内存不够导致服务或者机器异常。
d会导致主键重复。 参数名称 参数描述 输入值 说明 primaryKey hudi主键 按需 必须指定,可以是复合主键但是必须全局唯一。 preCombineField 预合并键,相同主键的多条数据按该字段进行合并 按需 必须指定,相同主键的数据会按该字段合并,不能指定多个字段。
field产生主键和分区方式。 说明: 写入设置KeyGenerator与表保存的参数值不一致时将提示需要保持一致。 org.apache.hudi.keygen.ComplexKeyGenerator 父主题: Hudi常见配置参数
job.properties 功能描述 流程的属性定义文件,定义了流程运行期间使用的外部参数值对。 参数解释 “job.properties”文件中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 nameNode HDFS NameNode集群地址 resourceManager
API读取HBase表数据 功能简介 要从表中读取一条数据,首先需要实例化该表对应的Table实例,然后创建一个Get对象。也可以为Get对象设定参数值,如列族的名称和列的名称。查询到的行数据存储在Result对象中,Result中可以存储多个Cell。 代码样例 以下代码片段在com.huawei
API读取HBase表数据 功能简介 要从表中读取一条数据,首先需要实例化该表对应的Table实例,然后创建一个Get对象。也可以为Get对象设定参数值,如列族的名称和列的名称。查询到的行数据存储在Result对象中,Result中可以存储多个Cell。 代码样例 以下代码片段在com.huawei
使用Get读取HBase数据 功能简介 要从表中读取一条数据,首先需要实例化该表对应的Table实例,然后创建一个Get对象。也可以为Get对象设定参数值,如列族的名称和列的名称。查询到的行数据存储在Result对象中,Result中可以存储多个Cell。 代码样例 以下代码片段在com.huawei
job.properties 功能描述 流程的属性定义文件,定义了流程运行期间使用的外部参数值对。 参数解释 “job.properties”文件中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 nameNode HDFS NameNode集群地址 resourceManager
API读取HBase表数据 功能简介 要从表中读取一条数据,首先需要实例化该表对应的Table实例,然后创建一个Get对象。也可以为Get对象设定参数值,如列族的名称和列的名称。查询到的行数据存储在Result对象中,Result中可以存储多个Cell。 代码样例 以下代码片段在com.huawei
API读取HBase表数据 功能简介 要从表中读取一条数据,首先需要实例化该表对应的Table实例,然后创建一个Get对象。也可以为Get对象设定参数值,如列族的名称和列的名称。查询到的行数据存储在Result对象中,Result中可以存储多个Cell。 代码样例 以下代码片段在com.huawei
ZooKeeper上数据错乱导致ClickHouse启动失败问题 问题现象 ClickHouse集群中某实例节点启动失败,该实例节点启动日志中有如下类似报错信息: 2021.03.15 21:01:19.816593 [ 11111 ] {} <Error> Application:
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml