检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COMPACTION参数 参数 描述 tableIdentifier 在其中执行删除操作的Hudi表的名称。 tablelocation Hudi表的存储路径 instant-time 执行show compaction命令可以看到instant-time 示例 schedule compaction
Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 constraint_name 约束名称。 所需权限 SQL权限 表2 DROP CONSTRAINT所需权限列表 权限描述 表的ALTER权限
Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 boolExpression 删除项的过滤条件 所需权限 SQL权限 表2 DELETE所需权限列表 权限描述 表的DELETE权限
data_location 是 String 数据存储的地方,分OBS表、DLI表,View。 last_access_time 是 Long 最近更新时间。是单位为“毫秒”的时间戳。 location 否 String OBS表上的存储路径。 owner 是 String 表创建者。
件的文件。 根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为targetFileSize的倍数。分组是计划中定义的"策略"的一部分。此外还有一个选项可以限制组大小,以改善并行性并避免混排大量数据。 将Clustering计划以avro元数据格式保存到时间线。
Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 column 待更新的目标列。 EXPRESSION 需在目标表中更新的源表列值的表达式。 boolExpression 过滤条件表达式。
c”,“json”和“avro”。 data_location 否 String 数据存储的路径,为OBS路径。 storage_properties 否 Array of Objects 存储属性,以“key/value”的格式出现,包含delimiter,escape,quo
元数据访问性能提升 提升Spark在处理大数据时的元数据访问性能,提高数据处理流程效率。 提升OBS committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shu
管理DLI具数据源的访问凭证: Spark 3.3.1及以上版本、Flink 1.15及以上版本的跨源访问场景 推荐使用数据加密服务DEW来存储数据源的认证信息,为您解决数据安全、密钥安全、密钥管理复杂等问题。 具体操作请参考使用DEW管理数据源访问凭证。 使用DEW管理数据源访问
livy.dli.spark.version = 2.3.2 livy.dli.spark.scala-version = 2.11 # 填入存储livy jar包资源的OBS桶路径。 livy.repl.jars = obs://bucket/livy/jars/livy-core_2
15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用DEW管理凭证。配置文件或者环境变量中密文存放,使用时解密,确保安全。Flink Opensource SQL使用DEW管理访问凭据
请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 data_path 是 String 导出数据的储存路径(当前仅支持将数据存储在OBS上)。另外,“export_mode”配置为“errorifexists”时,该路径下的文件夹须不存在,如请求样例中的“test”文件夹。
Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 select query 查询语句。 所需权限 SQL权限 表2 INSERT INTO所需权限列表 权限描述 表的INSERT_INTO_TABLE权限
String 资源包在队列中的名字。 is_async 否 Boolean 是否异步上传资源包。 请求示例 从OBS上传jar包至DLI,并定义分组名称为gatk。 { "paths": [ "https://test.obs.xxx.com/test_dli
String 资源包在队列中的名字。 is_async 否 Boolean 是否异步上传资源包。 请求示例 从OBS上传python文件至DLI,并定义分组名称为gatk。 { "paths": [ "https://test.obs.xxx.com/dli_tf.py"
逻辑上,每个元素可以应用于一个或多个窗口,这取决于所使用的窗口表值函数的类型。例如:滑动窗口可以把单个元素分配给多个窗口。 窗口表值函数 是 Flink 定义的多态表函数(Polymorphic Table Function,缩写PTF),PTF 是 SQL 2016 标准中的一种特殊的表函数,它可以把表作为一个参数。
Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 constraint_name 约束名称。 boolExpression 约束条件表达式。 所需权限 SQL权限 表2 ADD CONSTRAINT所需权限列表
组成。 table_name Database中的表名,由字母、数字和下划线(_)组成。 obs_path Obs路径,表示Delta表的存储位置。 timestamp_expression 时间戳,不能晚于当前时间,格式'yyyy-MM-ddTHH:mm:ss.SSS' version_code
tion Plan一个一个去执行,一直到全部都执行完。 对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件,然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟,因而进
String 资源包在队列中的名字。 is_async 否 Boolean 是否异步上传资源包。 请求示例 从OBS上传用户文件至DLI,并定义分组名称为gatk。 { "paths": [ "https: //test.obs.xxx.com/test_dli