检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
file_path 格式 无。 说明 文件路径,该路径是OBS路径。 父主题: 标示符
创建数据库和表 了解数据目录、数据库和表 在DLI控制台创建数据库和表 查看表元数据 在DLI控制台管理数据库资源 在DLI控制台管理表资源 创建并使用LakeFormation元数据
OBS表压缩率较高怎么办? 当您在提交导入数据到DLI表的作业时,如果遇到Parquet/Orc格式的OBS表对应的文件压缩率较高,超过了5倍的压缩率,您可以通过调整配置来优化作业的性能。 具体方法:在submit-job请求体conf字段中配置“dli.sql.files.ma
join始终会加入最新版本的时态表。Flink支持分区表和 Hive非分区表的临时连接,对于分区表,Flink 支持自动跟踪Hive表的最新分区。详情可参考:Apache Flink Hive Read & Write 注意事项 Flink目前不支持与Hive表进行基于事件时间event-time的时间关联。
参数说明 表1 参数说明 参数 描述 table_name 表名称。 db_name 数据库名称。 注意事项 所指定的表必须是数据库中存在的表,否则会出错。 示例 查看student表中的所有列。 1 SHOW COLUMNS IN student; 父主题: 查看表
表相关 创建DLI表 DLI提供创建DLI表的接口。您可以使用该接口创建数据存储在DLI内部的表。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 def create_dli_tbl(dli_client
表相关 创建DLI表 DLI提供创建DLI表的接口。您可以使用该接口创建数据存储在DLI内部的表。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
查询Oracle表 功能描述 SELECT命令用于查询Oracle表中的数据。 语法格式 1 SELECT * FROM table_name LIMIT number; 关键字 LIMIT:对查询结果进行限制,number参数仅支持INT类型。 注意事项 如果在建表时没有指定sc
} 读优化查询:COW表读优化查询等同于快照查询。 MOR表查询 在Spark SQL作业中使用元数据服务,或者配置了HMS同步参数,在创建MOR表后,会额外同步创建:“表名_rt”和“表名_ro”两张表。查询后缀为rt的表等同于实时查询,查询后缀为ro的表代表读优化查询。例如:通过Spark
创建OBS表时指定的路径必须是文件夹,如果建表路径是文件将导致导入数据失败。 当OBS的目录下有同名文件夹和文件时,数据导入指向该路径会优先指向文件而非文件夹。 说明: 路径同时支持文件和文件夹。 obs://DLI/sampledata.csv 表头:无/有 当“文件格式”为“CSV”时该参数有效。设置导入数据源是否含表头。
(partition_spec)] 描述 用于展示表或分区的详细信息。 可以使用规则运算表达式来同时匹配多个表,但不可用于匹配分区。 展示的信息将包括表的基本信息和相关的文件系统信息,其中文件系统信息包括总文件数、总文件大小、最大文件长度、最小文件长度、最后访问时间以及最后更新时间。如果指
查询DWS表 SELECT命令用于查询DWS表中的数据。 语法格式 1 SELECT * FROM table_name LIMIT number; 关键字 LIMIT:对查询结果进行限制,number参数仅支持INT类型。 注意事项 所查询的表必须是已经存在的表,否则会出错。
老旧的历史版本文件,以减少hudi表的数据存储及读写压力。 命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述 表1 参数描述 参数 描述 tableIdentifier Hudi表的名称 tablelocation
否 无 Long 生成数据的总行数。默认条件下,不限制生成数据的总行数。如果有字段生成器类型为序列生成器,则当生成数据的行数达到上限或者序列数字达到结束值时,都不会再生成数据。 fields.#.kind 否 random String 指定 '#' 字段的生成器。 '#' 字段
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager
String 对应服务的子网网络ID,即为需要建立连接的服务所在的子网。 url 是 String 对应服务对外提供的访问url。长度不能超过512个字符。获取方式请参考表4。 tags 否 Array of Objects 队列的标签。具体请参考表3。 表3 tags参数 参数名称
查询RDS表 SELECT命令用于查询RDS表中的数据。 语法格式 1 SELECT * FROM table_name LIMIT number; 关键字 LIMIT:对查询结果进行限制,number参数仅支持INT类型。 注意事项 所查询的表必须是已经存在的表,否则会出错。
查询CSS表 SELECT命令用于查询CSS表中的数据。 语法格式 1 SELECT * FROM table_name LIMIT number; 关键字 LIMIT:对查询结果进行限制,number参数仅支持INT类型。 注意事项 所查询的表必须是已经存在的表,否则会出错。
参数描述 表1 参数描述 参数 描述 table_name 需要清理无效数据文件的Hudi表的表名,必选。 op_type 命令运行模式,可选,默认值为dry_run,取值:dry_run、repair、undo、query。 dry_run:显示需要清理的无效数据文件。 repair:显示并清理无效的数据文件。
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager