检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
avro.codec 否 (none) String 仅用于文件系统,avro 压缩编解码器。默认不压缩。目前支持:deflate、snappy、bzip2、xz。 数据类型映射 目前,Avro schema 通常是从 table schema 中推导而来。
200G以上或日增长量超过60M)或数据量非常小的事实表(表数据量小于10G且未来三至五年增长后也不会超过10G)需要针对具体场景来进行例外处理: 持续大量新增数据的维度表 方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀
当配置为true时,查询该表时会迭代读取该表路径中所有文件,包含子目录中的文件。 false compression 否 指定压缩格式。一般为parquet格式时指定该参数,推荐使用'zstd'压缩格式。
spark.sql.files.maxPartitionBytes 134217728 读取文件时要打包到单个分区中的最大字节数。 spark.sql.badRecordsPath - Bad Records的路径。
且备份目录应选择在并行文件系统上,备份目录必须和原表目录在同一个桶上,备份目录不能与原表相同目录或者子目录同名。
Notebook作业运行过程中产生的临时数据将会存储在DLI作业桶中,且必须使用并行文件系统。 请在ModelArts管理控制台管理Notebook实例。请参考管理Notebook实例。 Notebook实例用于代码编辑和开发,关联队列用于执行作业。
导入作业 用户可以将保存在OBS桶中的Flink作业配置文件导入至DLI的Flink作业管理中。 适用于当用户切换区域、项目或用户时,需要创建相同的作业,而作业比较多的情况。
名称只能包含数字字母,下划线,感叹号,中划线,点,但是不能以点开头,长度(包含文件后缀)不能超过128个字符。 修改组下的资源包拥有者,则该参数为必选参数。 “group_name”和“resource_name”可以单独使用,也可以组合使用。
如果size小于二进制文件的长度,则结果将被截断为size个字符。size不能为负,并且padbinary不能为空。
数据导出 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。 导出文件格式为json格式,且文本格式仅支持UTF-8。
被插入的OBS表在建表时只能指定文件夹路径。 源表和目标表的数据类型和列字段个数应该相同,否则插入失败。 不建议对同一张表并发插入数据,可能会由于并发冲突导致插入数据结果异常。 INSERT INTO命令用于将查询的结果追加到目标表中。
${tableName} where create_time='2024-08-01'") .show(100) } } 随后执行maven打包命令,从target目录获取打包的jar文件并上传至OBS目录中。
配置文件或者环境变量中密文存放,使用时解密,确保安全。
恢复表分区:从文件系统中导出分区信息保存到元数据中。 显示所有分区:显示分区表中的所有分区。 只适用于“用户授权”的权限包括: 显示表:显示当前表。 View具体权限说明请参考表3。 View只能通过SQL语句进行创建,不能通过“创建表”页面进行创建。
00,0003,Cindy,330108 202103241606060001,appShop,2021-03-24 16:06:06,200.00,180.00,2021-03-24 16:10:06,0001,Alice,330106 读取sink表中配置的obs路径中的parquet文件
pom文件配置中依赖包 <dependency> <groupId>com.huaweicloud.sdk</groupId> <artifactId>huaweicloud-sdk-core</artifactId> <version>3.1.62</version
shared_cluster:共享 exclusive_cluster:独享 edge_node:边缘节点 job_config 否 Object 作业配置, 具体参数说明请参见表4。 main_class 否 String jar包主类。
表1 作业运行参数说明 参数 参数说明 所属队列 默认选择“共享队列”,可以按需选择自定义的CCE独享队列,并配置以下参数。
properties.connector.kerberos.krb5 否 无 String 上传“krb5.conf”文件的OBS路径。如果开启了kerberos认证,则必须设置。
在估算存储费用时,请特别注意,DLI采用压缩存储,通常能压缩到原文件大小的 1/5 。DLI存储按照压缩后的大小计费。 如果数据存储在OBS服务中,则DLI服务不收取存储费用,对应的费用由OBS服务收取。 扫描量计费 按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。