检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
a.logRetentionDuration Delta log文件过期时间。每当Delta log进行checkpoint动作时,会检查是否有需要删除的过期文件,如果有,则删除这些过期文件以防Delta log文件无限增长。 30天
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
径,cer类型文件。 datasource_type 是 String 数据源类型,目前支持CSS,KRB,passwd,Kafka_SSL。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否
径,cer类型文件。 datasource_type 是 String 数据源类型,目前支持CSS,KRB,passwd,Kafka_SSL。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location
查询,生成了csv数据文件,文件内容为insert插入的数据内容。 图4 查询结果 指定的OBS数据目录包含数据文件。 在OBS桶“dli-test-021”根目录下创建数据文件目录“data2”。创建如下内容的测试数据文件“test.csv”,并上传文件到“obs://dli-test-021/data2”目录下。
置为0,会关闭此功能。由于批处理中分区中插入记录的数量众多,总会出现小文件。Hudi提供了一个选项,可以通过将对该分区中的插入作为对现有小文件的更新来解决小文件的问题。此处的大小是被视为“小文件大小”的最小文件大小。 104857600 byte hoodie.copyonwrite
Spark日志分割规则: 按大小分割:默认情况下,每个日志文件最大为128MB。 按时间分割:每过一小时自动创建新的日志文件。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否
可过options参数设置,例如:csv的分隔符,转义符等。 当OBS桶目录下有文件夹和文件同名时,加载数据会优先指向该路径下的文件而非文件夹。建议创建OBS对象时,在同一级中不要出现同名的文件和文件夹。 导出数据 DLI提供导出数据的接口。您可以使用该接口将DLI表中的数据导出到OBS中。示例代码如下:
程序包 程序包支持删除,但不支持删除程序包组。 支持上传的程序包类型: JAR:用户jar文件。 PyFile:用户Python文件。 File:用户文件。 ModelFile:用户AI模型文件。 程序包管理页面 表2 程序包管理参数 参数 参数说明 分组名称 程序包所属分组的名称。如果不分组,则显示“--”。
</dependency> </dependencies> 图5 pom文件中添加配置 在工程路径的“src > main > java”文件夹上鼠标右键,选择“New > Package”,新建Package和类文件。 图6 新建Package和类文件 Package根据需要定义,本示例定义为:“com
5。 表1 Spark 2.4.5版本优势 特性 说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
单击“上传对象”,将people.json文件上传到OBS桶根目录下。 在OBS桶根目录下,单击“新建文件夹”,创建名为“result”的文件夹。 单击“result”的文件夹,在“result”下单击“新建文件夹”,创建名为“parquet”的文件夹。 步骤3:新建Maven工程,配置pom依赖
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级
file_num 指定目录的文件数量 storage_size 该目录的Size(bytes) storage_size(unit) 该目录的Size(KB) storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间,即它考虑了为集群设置的复制因子
参数名称 是否必选 参数类型 说明 zip_file 是 String 从OBS上导入的作业zip文件路径,支持填写文件夹,导入文件夹下的所有zip文件。 说明: 文件夹中只能包含zip文件。 is_cover 否 Boolean 如果导入的作业与服务已有的作业同名,是否覆盖服务中已有的作业。
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级