检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
新版本的Parquet文件,那旧版本的文件就不能被Clean清理,增加存储压力。 提交Spark jar作业时,CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按照之前的表设计
对一个已经存在的表,修改列名、数据类型、注释、位置([FIRST|AFTER column_name] 用于指定列被修改后出现的位置)或者以上任意组合。如果语法中包含了分区子句,那么相应分区的元数据也会一起变动。CASCADE模式会让语法对表和表分区的元数据产生作用,而默认的模式为RE
创建DLI表时不支持指定存储路径。 数据导入 仅支持将OBS上的数据导入DLI或OBS中。 支持将OBS中CSV,Parquet,ORC,JSON和Avro格式的数据导入到在DLI中创建的表。 将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。 导入数据的编码格式仅支持UTF-8。 数据导出
于SQL中的行,位置比名称更重要。 支持从BOOLEAN、TINYINT、SMALLINT、INTEGER、BIGINT、REAL、DOUBLE或VARCHAR进行转换。当数组的元素类型为支持的类型之一、Map的键类型是VARCHAR且Map的值类型是支持的类型之一或行的每个字段
怎样将OBS表映射为DLI的分区表? Flink SQL作业Kafka分区数增加或减少,怎样不停止Flink作业实现动态感知? 在Flink SQL作业中创建表使用EL表达式,作业运行提示DLI.0005错误怎么办? Flink作业输出流写入数据到OBS,通过该OBS文件路径创建的DLI表查询无数据
来将多个SELECT语句的结果集合并成单个结果集。 UNION UNION将第一个查询的结果集中的所有行与第二个查询的结果集中的行合并。 query UNION [ALL | DISTINCT] query ALL和DISTINCT表示是否返回包含重复的行。ALL返回所有的行;D
本文档介绍如何使用HBase连接器基于HBase进行SQL查询。 HBase连接器在upsert模式下运行,可以使用 DDL 中定义的主键与外部系统交换更新操作消息。但是主键只能基于HBase的rowkey字段定义。如果没有声明主键,HBase连接器默认取rowkey作为主键。详情可参考HBase
delta_table0; 系统响应 返回表的详细信息或统计信息。 表2 结果参数描述 参数名 参数含义 format 表的格式,在这里是delta id 表的唯一id name 在metaserver中定义的表名 description 关于表的说明 location 表的存储路径 createdAt
Hudi表的名称 tablelocation Hudi表的存储路径 示例 run clean on h1; run clean on "obs://bucket/path/h1"; 注意事项 对表执行clean操作时需要表的owner才可以执行。 如果需要修改clean默认的参数,需
范围内的窗口、FOLLOWING 所描述的区间并未支持。 ORDER BY 必须指定于单个的时间属性。 可以在一个 SELECT 子句中定义多个 OVER 窗口聚合。然而,对于流式查询,由于目前的限制,所有聚合的 OVER 窗口必须是相同的。 OVER 窗口需要数据是有序的。因为表没有固定的排序,所以
sql.shuffle.partitions”参数可以设置非DLI表在OBS桶中插入的文件个数,同时,为了避免数据倾斜,在INSERT语句后可加上“distribute by rand()”,可以增加处理作业的并发量。例如: insert into table table_target
DOUBLE 返回数值区域的百分比数值点。0<=P<=1,否则返回NULL,不支持浮点型数值。 percentile_approx percentile_approx(DOUBLE col, p [, B]) DOUBLE 返回组内数字列近似的第p位百分数(包括浮点数),p值在[0,1]之间
注意事项 向表中添加分区时,此表和分区列(建表时PARTITIONED BY指定的列)必须已存在,而所要添加的分区不能重复添加,否则将出错。已添加的分区可通过IF NOT EXISTS避免报错。 若分区表是按照多个字段进行分区的,添加分区时需要指定所有的分区字段,指定字段的顺序可任意。
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过
在到期前续费成功,所有资源得以保留,且作业的运行不受影响。资源到期后的状态说明,请参见到期后影响(适用于包年/包月计费模式)。 续费相关的功能 包年/包月的DLI资源续费相关的功能如表1所示。 表1 续费相关的功能 功能 说明 手动续费 包年/包月的DLI资源从购买到被自动删除之前,您可以随时在DLI控制台为
String 仅读取指定表的 changelog 记录(通过对比 Canal 记录中的 "table" 元数据字段)。 支持的Connector Kafka 示例 使用kafka发送数据,输出到print中。 根据kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置
非必填。用于指定schema中的某个字段作为Redis中key的标识。在插入数据时与参数“table”配合使用。 partitions.number 读取数据时,并发task数。 scan.count 每批次读取的数据记录数,默认为100。如果在读取过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。
table_name Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 using 参数delta,定义和创建Delta table table_comment 表的描述信息。 location_path
验DLI的核心功能。 商用 TPC-H使用指导 2 支持存储量套餐包 DLI增加存储量套餐包,降低数据存储在DLI中的费用。 商用 产品价格详情 3 支持计算队列定时扩缩容 DLI提供了队列规格变更定时任务功能。用户可以根据自己的业务周期或者使用情况,基于现有队列规格,在不同的时
OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用DEW管理