检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SELECT INSERT INTO MERGE INTO UPDATE DELETE COMPACTION ARCHIVELOG CLEAN CLEANARCHIVE 父主题: DLI Hudi SQL语法参考
org.apache.hadoop.hive.ql.io.orc.OrcSerde InputFormat: org.apache.hadoop.hive.ql.io.orc.OrcInputFormat OutputFormat:
spark.sql.hive.UQueryHiveACLSessionStateBuilder") .config("spark.sql.catalog.class", "org.apache.spark.sql.hive.UQueryHiveACLExternalCatalog")
配置为-1代表不限制返回的条数。 是 50000 kyuubi.engine.dli.small.file.merge 配置是否开启小文件自动合并。默认为false,代表不开启。 true:开启 false:不开启 是 true kyuubi.engine.dli.bi.type 用于指定BI工具类型。 支持fine/
W表。 Hudi表的写任务要开启Hive元数据同步功能。 SparkSQL天然与Hive集成,无需考虑元数据问题。该条建议针对的是通过Spark Datasource API或者Flin写Hudi表的场景,通过这两种方式写Hudi时需要增加向Hive同步元数据的配置项;该配置的目
test_schema_5 LOCATION 'obs://${bucket}/user/hive'; 在名为Hive的CATALOG下创建一个名为sales的schema: CREATE SCHEMA hive.sales; 如果当前catalogs下名为traffic的schema不存在
TBLPROPERTIES( "dli.lifecycle.days"=100); Hive语法新建test_hive_lifecycle表,生命周期为100天。 1 2 3 CREATE TABLE test_hive_lifecycle(id int) stored as parquet
org.apache.hadoop.hive.ql.io.orc.OrcSerde InputFormat: org.apache.hadoop.hive.ql.io.orc.OrcInputFormat OutputFormat:
注意:只有当用户开启动态扩缩时,该配置才有意义。 flink.dli.job.cu.max 用户CU初始值 该配置表示当前作业在进行动态扩缩时允许使用的最大CU数,如果用户未配置则默认值为该作业的初始总CU数。 注意:该配置值不能小于用户配置的总CU数,且只有当用户开启动态扩缩时,该配置才有意义。
line列表: call show_archived_instant_list(table => '[table_name]'); 查看某个表某个时间戳后的已被归档的instant time line列表: call show_archived_instant_list(table
ion属性: set session hive.orc_use_column_names=true; 对于parquet格式存储的非分区表,drop column后如果查询失败,需要设置Session属性: set session hive.parquet_use_column_names=true;
table ,再历史导入,再开启实时。 图1 初始化操作流程 如果批量初始化前表里已经存在数据且没有truncate table,则会导致批量数据写成非常大的log文件,对后续compaction形成很大压力需要更多资源才能完成。 Hudi表在Hive元数据中,应该会存在1张内部
禁止或恢复指定表或分区的生命周期。 使用禁止或恢复表的生命周期有以下两种场景: 表或分区表开启了生命周期的功能,该功能可以禁止或恢复表的生命周期,即修改“dli.table.lifecycle.status”的参数值。 表或分区表未开启生命周期的功能,使用禁止或恢复表的生命周期,则会增加“dli.table
RANGE(3, 5); 将某条数据插入表中 使用Hive语法创建一个parquet格式的分区表 CREATE TABLE hive_serde_tab1 (col1 INT, p1 INT, p2 INT) USING HIVE OPTIONS(fileFormat 'PARQUET')
者多个节点执行。Fragments separation表示数据在两个节点之间进行交换。Fragment type表示一个fragment如何被执行以及数据在不同fragment之间怎样分布。 SINGLE Fragment会在单个节点上执行。 HASH Fragment会在固定
accessors-smart-1.2.jar hive-shims-scheduler-3.1.0-h0.cbu.mrs.321.r10.jar metrics-graphite-4.1.1.jar activation-1.1.1.jar hive-spark-client-3.1.0-h0
数据管理维护 Hudi Compaction操作说明 Hudi Clean操作说明 Hudi Archive操作说明 Hudi Clustering操作说明
创建DLI表 使用DataSource语法创建DLI表 使用Hive语法创建DLI表 父主题: 表相关
创建OBS表 使用DataSource语法创建OBS表 使用Hive语法创建OBS表 父主题: 表相关
图1 迁移数据至DLI 常见迁移场景与迁移方案指导 表1 常见迁移场景与迁移方案指导 数据类型 迁移工具 迁移方案 Hive CDM 典型场景示例:迁移Hive数据至DLI Kafka CDM 典型场景示例:迁移Kafka数据至DLI Elasticsearch CDM 典型场