检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主键用作 Flink 优化的一种提示信息。主键限制表明一张表或视图的某个(些)列是唯一的并且不包含 Null 值。 主键声明的列都是非 nullable 的。因此主键可以被用作表行级别的唯一标识。 主键可以和列的定义一起声明,也可以独立声明为表的限制属性,不管是哪种方式,主键都不可以重复定义,否则
执行show_logfile_records时,通过merge控制是否将多个log file中的record合并在一起返回 否 limit 限制返回结果的条数 否 示例 call show_logfile_metadata(table => 'hudi_mor', log_file_path_pattern
需要查询表的表名,支持database.tablename格式 是 instant_time 某次commit对应的时间戳 是 limit 限制返回结果的条数 否 示例 call show_commit_files(table=>'hudi_mor', instant_time=>
API完全兼容,并且其设计能够与结构化流式处理紧密集成,可以轻松地将单个数据副本用于批处理和流式处理操作,并提供大规模增量处理。 DLI中Delta的使用限制 仅Spark 3.3.1(3.0.0)及以上版本支持Delta。 DLI支持的Delta版本是Delta 2.3.0。 Spark 3.3
/分区时创建的默认路径。 该语句不会对表或分区原有数据产生影响,也不会修改原有的表或分区目录,但是新增的数据,都会保存到新指定的目录下。 限制 ALTER TABLE table_name ADD | DROP col_name命令仅对于ORC/PARQUET存储格式的非分区表可用。
查询作业模板列表 功能介绍 该API用于查询作业模板列表。 调试 您可以在API Explorer中调试该接口。 URI URI格式: GET /v3/{project_id}/templates?type=spark 参数说明 表1 URI参数说明 参数 是否必选 参数类型 描述
项目编号,用于资源隔离。获取方式请参考获取项目ID。 请求消息 表2 请求参数说明 参数 是否必选 参数类型 描述 description 否 String 描述信息。长度限制:256个字符以内。 max_cu 否 Integer 弹性资源池的最大CU数。 min_cu 否 Integer 弹性资源池的最小CU数。
弹性资源池Flink版本只支持1.10及其以上版本,如果准备分配到弹性资源池的作业使用Flink1.7版本可能会出现兼容性问题,需要提前做好Flink版本适配。 约束与限制 弹性资源池和队列均是可用状态。 队列是按需专属队列。 队列和弹性资源池状态正常,资源未被冻结。 弹性资源池仅支持关联同一企业项目的队列资源。
id,则在重新执行DLI作业时,会覆盖上一次的冗余数据。 batch.size.entries和batch.size.bytes分别对数据条数和数据量大小进行限制。 插入数据。 1 sparkSession.sql("insert into css_table values(13, 'John'),(22
默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.autoBroadcastJoinThreshold 209715200 配置执行连接时显示所有工作节点的表的最大
_timeout,在闲置会话超过所设定的时间后服务端将主动关闭连接。 session_timeout默认值为600秒,设置为0表示关闭超时限制,一般不建议设置为0。 session_timeout设置方法如下: 登录GaussDB(DWS) 管理控制台。 在左侧导航栏中,单击“集群管理”。
图的子句运算后得到。例如视图V指定了返回5条数据,而关联查询为select * from V limit 10,则最终只有5条数据返回。 限制 以上两种语法不可混用。 当视图包含分区,那么将无法通过这个语法来改变定义。 示例 CREATE OR REPLACE VIEW tv_view
当第一次开启生命周期时,会扫描表/分区会扫描路径下的表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。 表生命周期功能支持Hive、DataSource语法创建表、多版本表,暂不支持跨源表、Carbon表。
主键用作 Flink 优化的一种提示信息。主键限制表明一张表或视图的某个(些)列是唯一的并且不包含 Null 值。 主键声明的列都是非 nullable 的。因此主键可以被用作表行级别的唯一标识。 主键可以和列的定义一起声明,也可以独立声明为表的限制属性,不管是哪种方式,主键都不可以重复定义,否则
origin_col新增列将会被加入到原始列origin_col之后,可以缺省。FIRST只能再嵌套列添加新的子列时使用,禁止top-level列使用FIRST,AFTER没有限制。 示例 alter table h0 add columns(ext0 string); alter table h0 add columns(new_col
保留期之前创建的版本。 Delta Lake 具有一项安全检查,用于防止运行危险的VACUUM命令,当指定保留期阈值少于168小时时会报错限制该操作。 如果确定指定保留期阈值进行vacuum操作,可通过将 Spark 配置属性 spark.databricks.delta.retentionDurationCheck
Hudi表的性能。在性能方面各个索引的区别如下: Bucket索引 优点:写入过程中对主键进行hash分桶写入,性能比较高,不受表的数据量限制。Flink和Spark引擎都支持,Flink和Spark引擎可以实现交叉混写同一张表。 缺点:Bucket个数不能动态调整,数据量波动和
单AZ或者多AZ存储,两种存储策略区别如下: 选择多AZ存储,数据将冗余存储至多个AZ中,可靠性更高。选择多AZ存储的桶,数据将存储在同一区域的多个不同AZ。当某个AZ不可用时,仍然能够从其他AZ正常访问数据,适用于对可靠性要求较高的数据存储场景。建议优选使用多AZ存储的策略。
暂时不可用。 HetuEngine已使用CUs和实际CU一致。 CU范围:CU设置主要是为了控制弹性资源池扩缩容的最大最小CU范围,避免无限制的资源扩容风险。 弹性资源池中所有队列的最小CU数之和需要小于等于弹性资源池的最小CU数。 弹性资源池中任意一个队列的最大CU必须小于等于弹性资源池的最大CU。
10000 Long 每秒生成的行数,用以控制数据发出速率。 number-of-rows 否 无 Long 生成数据的总行数。默认条件下,不限制生成数据的总行数。如果有字段生成器类型为序列生成器,则当生成数据的行数达到上限或者序列数字达到结束值时,都不会再生成数据。 fields.#