检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
置为0,会关闭此功能。由于批处理中分区中插入记录的数量众多,总会出现小文件。Hudi提供了一个选项,可以通过将对该分区中的插入作为对现有小文件的更新来解决小文件的问题。此处的大小是被视为“小文件大小”的最小文件大小。 104857600 byte hoodie.copyonwrite
此处设置keystore.jks文件的位置以及进入这个文件的密钥。在准备工作中生成的keystore.jks文件需要先放到OBS桶中,然后填入ak和sk以及jks文件的具体位置。最后在“es.net.ssl.keystore.pass”填入进入文件的密钥。 .option("es
a.logRetentionDuration Delta log文件过期时间。每当Delta log进行checkpoint动作时,会检查是否有需要删除的过期文件,如果有,则删除这些过期文件以防Delta log文件无限增长。 30天
是否跳过,将jar包、Python程序文件、配置文件上传到OBS和加载到DLI服务端资源列表。当相关资源文件已经加载到DLI服务资源列表中,可以使用该参数跳过该步骤。 不携带该参数时,默认会上传和加载命令中的所有资源文件到DLI服务中。 all:跳过所有资源文件的上传和加载 app:跳过Spark应用程序文件的上传和加载
properties.bootstrap.servers 是 无 string Kafka Broker地址。格式为:host:port,host:port,host:port,以英文逗号(,)分隔。 format 是 无 string Flink Kafka Connector在
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
径,cer类型文件。 datasource_type 是 String 数据源类型,目前支持CSS,KRB,passwd,Kafka_SSL。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location
径,cer类型文件。 datasource_type 是 String 数据源类型,目前支持CSS,KRB,passwd,Kafka_SSL。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location
查询,生成了csv数据文件,文件内容为insert插入的数据内容。 图4 查询结果 指定的OBS数据目录包含数据文件。 在OBS桶“dli-test-021”根目录下创建数据文件目录“data2”。创建如下内容的测试数据文件“test.csv”,并上传文件到“obs://dli-test-021/data2”目录下。
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否
程序包 程序包支持删除,但不支持删除程序包组。 支持上传的程序包类型: JAR:用户jar文件。 PyFile:用户Python文件。 File:用户文件。 ModelFile:用户AI模型文件。 程序包管理页面 表2 程序包管理参数 参数 参数说明 分组名称 程序包所属分组的名称。如果不分组,则显示“--”。
可过options参数设置,例如:csv的分隔符,转义符等。 当OBS桶目录下有文件夹和文件同名时,加载数据会优先指向该路径下的文件而非文件夹。建议创建OBS对象时,在同一级中不要出现同名的文件和文件夹。 导出数据 DLI提供导出数据的接口。您可以使用该接口将DLI表中的数据导出到OBS中。示例代码如下:
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否
edsconnection updateHostInfo 添加路由 edsconnection addRoute 删除路由 edsconnection deleteRoute 创建批处理作业 jobs createBatch 取消批处理作业 jobs cancelBatch 创建全局变量 variable
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
</dependency> </dependencies> 图5 pom文件中添加配置 在工程路径的“src > main > java”文件夹上鼠标右键,选择“New > Package”,新建Package和类文件。 图6 新建Package和类文件 Package根据需要定义,本示例定义为:“com
5。 表1 Spark 2.4.5版本优势 特性 说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
参数名称 是否必选 参数类型 说明 zip_file 是 String 从OBS上导入的作业zip文件路径,支持填写文件夹,导入文件夹下的所有zip文件。 说明: 文件夹中只能包含zip文件。 is_cover 否 Boolean 如果导入的作业与服务已有的作业同名,是否覆盖服务中已有的作业。
单击“上传对象”,将people.json文件上传到OBS桶根目录下。 在OBS桶根目录下,单击“新建文件夹”,创建名为“result”的文件夹。 单击“result”的文件夹,在“result”下单击“新建文件夹”,创建名为“parquet”的文件夹。 步骤3:新建Maven工程,配置pom依赖