检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COMPACTION 命令功能 压缩( compaction)用于在 MergeOnRead表将基于行的log日志文件转化为parquet列式数据文件,用于加快记录的查找。 命令格式 SCHEDULE COMPACTION on tableIdentifier |tablelocation;
表就地转换为 Delta 表。 此命令会列出目录中的所有文件,创建 Delta Lake 事务日志来跟踪这些文件,并通过读取所有 Parquet 文件的页脚来自动推断数据架构。 转换过程会收集统计信息,以提升转换后的 Delta 表的查询性能。 如果提供表名,则元存储也将更新,以反映该表现在是
file_path 格式 无。 说明 文件路径,该路径是OBS路径。 父主题: 标示符
Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。 在DLI环境,Hudi表的数据文件存储在OBS上,因此可以通过查看OBS文件检查。 如下,展示了Hudi 多级分区COW表存储结构的示意。 hudi_table ├── .hoodie // 元数据文件夹 │ ├──
tableName 表名。 col_name 待修改的列名。 column_type 目标列类型。 col_comment 列comment。 column_name 位置修改参照列,例如:AFTER column_name的语义是要将待修改列放到参照列column_name之后。
此处设置keystore.jks文件的位置以及进入这个文件的密钥。在准备工作中生成的keystore.jks文件需要先放到OBS桶中,然后填入ak和sk以及jks文件的具体位置。最后在“es.net.ssl.keystore.pass”填入进入文件的密钥。 .option("es.net
decimal_places 否 BIGINT类型。 默认为0,截取位置的小数点位。 返回值说明 返回DOUBLE或DECIMAL类型。 返回规则如下: number为DOUBLE、DECIMAL类型时会返回相应的类型。 number为STRING、BIGINT类型时,返回DOUBLE类型。
Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带宽和百万级别的IOPS,能够快速处理高性能计算(HPC)工作负载。 并行文件系统的详细介绍和使用说明,请参见《并行文件系统特性指南》。 使用须知 请勿将该OBS桶用
CLEANARCHIVE 命令功能 用于对Hudi表的归档文件进行清理,以减少Hudi表的数据存储及读写压力。 命令格式 按文件容量进行清理,需要配置参数: hoodie.archive.file.cleaner.policy = KEEP_ARCHIVED_FILES_BY_SIZE;
ARQUET文件类型的表。 如果用户CTAS建表指定的文件格式为AVRO类型,而且直接使用数字作为查询语句(SELECT)的输入,如“CREATE TABLE tb_avro STORED AS AVRO AS SELECT 1”则会报schema解析异常。 此问题的原因是如果不
与文件最终提交之间会进行文件合并。这些Pending状态的文件将首先被提交为一个以.开头的临时文件。这些临时文件随后将会按照用户指定的策略和合并方式进行合并,最终生成合并后的Pending状态的文件。 然后这些文件将被发送给Committer并提交为正式文件,在这之后,原始的临时文件也会被删除掉。
与文件最终提交之间会进行文件合并。这些Pending状态的文件将首先被提交为一个以.开头的临时文件。这些临时文件随后将会按照用户指定的策略和合并方式进行合并,最终生成合并后的Pending状态的文件。 然后这些文件将被发送给Committer并提交为正式文件,在这之后,原始的临时文件也会被删除掉。
ckpoint恢复”。 checkpoint间隔设置需在输出文件实时性、文件大小和恢复时长之间进行权衡,比如10分钟。 使用HDFS时需要绑定相应的跨源,并填写相应的主机信息。 使用hdfs时,请配置主NameNode的所在节点信息。 参数说明 表1 参数说明 参数 是否必选 说明
CTAS建表语句不能指定表的属性。 OBS目录下包含子目录的场景: 创建表时,若指定路径为OBS上的目录,且该目录下包含子目录(或嵌套子目录),则子目录下的所有文件类型及其内容也是表内容。 您需要保证所指定的目录及其子目录下所有文件类型和建表语句中指定的存储格式一致,所有文件内容和表中的字段一致,否则查询将报错。
obs_path 是 数据文件所在的OBS存储路径,推荐使用OBS并行文件系统存储。 格式:obs://bucketName/tblPath bucketName即桶名称。 tblPath是目录名称。目录后不需要指定文件名。 当OBS的目录下文件夹与文件同名时,创建OBS表指向的路径会优先指向文件而非文件夹。
ordinal函数用于将输入变量按从小到大排序后,返回nth指定位置的值。。 命令格式 ordinal(bigint <nth>, <var1>, <var2>[,...]) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 nth 是 BIGINT类型。 指定要返回的位置值。 var 是 BIGINT、
故障处理 问题1:将代码直接复制到py文件中后,'\'后出现“unexpected character”问题。 问题 将代码直接复制到py文件中后,'\'后出现“unexpected character”问题。 解决方案 将'\'后面的缩进或是空格全部删除。 父主题: 对接Redis
greSQL数据库可存储更加复杂类型的数据,支持空间信息服务、多版本并发控制(MVCC)、高并发,适用场景包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数
DWS结果表 功能描述 DLI将Flink作业的输出数据输出到数据仓库服务(DWS)中。DWS数据库内核兼容PostgreSQL,PostgreSQL数据库可存储更加复杂类型的数据,支持空间信息服务、多版本并发控制(MVCC)、高并发,适用场景包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data
GROUP BY GROUP BY GROUP BY将SELECT语句的输出行划分成包含匹配值的分组。简单的GROUP BY可以包含由输入列组成的任何表达式,也可以是按位置选择输出列的序号。 以下查询是等效的: SELECT count(*), nationkey FROM customer