检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
说明:对此规则或建议进行的解释。 示例:对此规则或建议从正、反两个方面给出。 适用范围 基于MRS-Hudi进行数据存储、数据加工作业的设计、开发、测试和维护。 该设计开发规范是基于MRS 3.3.0版本。 父主题: Hudi应用开发规范
oin计算)能够支持50~100并发,对于简单的SQL查询,支持100~200左右查询。 如果集群有混合负载(要求极致性能的点查/范围查询和有大数据量聚合及join查询),建议将不同类型的负载拆分到不同集群;对于集群规划有远远超过100个并发业务系统,也需要设计将业务分摊到不同的集群。
同的。 定位思路 无。 处理步骤 当需要高精度的数据比较时,可以使用Decimal数据类型的数值,例如,在财务应用程序中,equality和inequality检查,以及取整运算,均可使用Decimal数据类型的数值。 参考信息 无。 父主题: CarbonData故障处理
mover -p <HDFS文件全路径或目录路径> 在客户端执行此命令时,用户需要具备supergroup权限。可以使用HDFS服务的系统用户hdfs。或者在集群上创建一个具有supergroup权限的用户,再在客户端中执行此命令。 父主题: 使用HDFS
park对不同精度的Decimal类型处理是不同的。 UPSERT操作时,Hudi使用Avro兼容的parquet文件写入类进行写入,这个和Spark的写入方式是不兼容的。 解决方案: 执行BULK_INSERT时指定设置“hoodie.datasource.write.row.writer
park对不同精度的Decimal类型处理是不同的。 UPSERT操作时,Hudi使用Avro兼容的parquet文件写入类进行写入,这个和Spark的写入方式是不兼容的。 解决方案: 执行BULK_INSERT时指定设置“hoodie.datasource.write.row.writer
commits个Instant不会被归档,以此保证有足够的Instant去触发compation schedule。 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
同的。 定位思路 无。 处理步骤 当需要高精度的数据比较时,可以使用Decimal数据类型的数值,例如,在财务应用程序中,equality和inequality检查,以及取整运算,均可使用Decimal数据类型的数值。 参考信息 无。 父主题: CarbonData故障排除
的JVM最大使用内存 set mapred.child.java.opts=-Xms1024M -Xmx3584M;//此参数为全局参数,即对Map和Reduce统一设置 参数设置只对当前session有效。 父主题: 使用Hive
消费失败,已经消费数据的offset无法正常提交,所以下次重新消费时还是在旧的offset消费数据,从而导致消费数据重复。 解决办法 建议用户在Manager页面调整以下服务参数: request.timeout.ms=100000 session.timeout.ms=90000
配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 遇到类型转换错误,当前数据保存为脏数据。 空值转换 原始数据包含NULL值,转换为用户指定的值。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 随机值转换 不涉及处理NULL值、空字符串,不生成脏数据。
索引表数据的rowkey由索引列构成,并且包含分隔符,格式为“\x01索引值\x00”,因此预分区需要指定成对应格式,例如,当使用id列和age列作为索引列时,两个列均为整数,使用id列完成预分区,可以指定索引表预分区点为: \x010,\x011,\x012.... 代码样例
在Windows环境的开发环境IntelliJ IDEA中,在“Maven Projects > 样例工程名称 > Lifecycle”中,执行“clean”和“package”操作,编译完成后,在target目录下即可生成“hetu-examples-XXX.jar”文件。 上传“hetu-examples-XXX
以执行。 如果需要修改clean默认的参数,需要在执行前以set方式设置好需要保留的commit数等参数。 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 遇到类型转换错误,当前数据保存为脏数据。 空值转换 原始数据包含NULL值,转换为用户指定的值。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 随机值转换 不涉及处理NULL值、空字符串,不生成脏数据。
MergeTree ClickHouse中最重要的引擎,基于分区键(partitioning key)的数据分区分块存储、前缀稀疏索引(order by和primary key)。 ReplacingMergeTree 相对于MergeTree,它会用最新的数据覆盖具有相同主键的重复项。 删除
索引表数据的rowkey由索引列构成,并且包含分隔符,格式为“\x01索引值\x00”,因此预分区需要指定成对应格式,例如,当使用id列和age列作为索引列时,两个列均为整数,使用id列完成预分区,可以指定索引表预分区点为: \x010,\x011,\x012.... 代码样例
sourceTable2 where column1 = 'xxx'); 示例5: delete from h0; 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
and `_hoodie_commit_time`<='20210308212318'; --结果必须根据start.timestamp和end.timestamp进行过滤,如果没有指定end.timestamp,则只需要根据start.timestamp进行过滤。 set hoodie
客户价值 在MRS服务只作为计算资源的场景下,使用Task节点可以节省成本,并可以更加方便快捷地对集群节点进行扩缩容,满足用户对集群计算能力随时增减的需求。 用户场景 当集群数据量变化不大而集群业务处理能力需求变化比较大,临时需要增大业务量时,可选择添加Task节点。 临时业务量增大,如年底报表处理。