检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。 Flink支持动态数据类型,可以在运行时定义数据结构,不需要事先定义元数据。 定义您的数据结构,包括数据目录、数据库、表。请参考创建数据库和表。 创建必要的存储桶来存储作业运行过程中产生的临时数据:作业
包。 图9 导出jar包 打包成功后,生成的Jar包会放到target目录下,以备后用。本示例将会生成到:“D:\DLITest\MyUDAF\target”下名为“MyUDAF-1.0-SNAPSHOT.jar”。 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。 J
COLUMN 计算列是一个使用 “column_name AS computed_column_expression” 语法生成的虚拟列。它由使用同一表中其他列的非查询表达式生成,并且不会在表中进行物理存储。例如,一个计算列可以使用 cost AS price * quantity 进行定义
资源队列 选择已创建的DLI SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“testdlitable”。
COLUMN 计算列是一个使用 “column_name AS computed_column_expression” 语法生成的虚拟列。它由使用同一表中其他列的非查询表达式生成,并且不会在表中进行物理存储。例如,一个计算列可以使用 cost AS price * quantity 进行定义
调优参数。同时提供可视化智能调优界面。 学习成本高,需要了解上百个调优参数。 支持数据源 云上:OBS、RDS、DWS、CSS、MongoDB、Redis。 云下:自建数据库、MongoDB、Redis。 云上:OBS。 云下:HDFS。 生态兼容 DLV、永洪BI、帆软。 大数据生态工具。
暂不支持通过python写UDF、UDTF、UDAF自定义函数。 Flink Opensource SQL作业中使用自定义函数时,不支持生成静态流图。 POM依赖 <dependency> <groupId>org.apache.flink</groupId>
创建OBS分区表成功后,OBS表实际还没有生成分区信息。生成分区信息主要有以下两种场景: 给OBS分区表插入对应的分区数据,数据插入成功后OBS表才会生成分区元数据信息,后续则可以根据对应分区列进行查询等操作。 手工拷贝分区目录和数据到OBS分区表路径下,执行本章节介绍的分区添加命令生成分区元数据信息,后续即可根据对应分区列进行查询等操作。
0/{project_id}/databases/{database_name}/tables/{table_name} 参数说明 表1 URI 参数 参数名称 是否必选 参数类型 说明 project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 database_name 是 String
Python Method API Database 创建数据库 createDatabase create_database POST /v1.0/{project_id}/databases 删除数据库 deleteDatabase delete_database DELETE /v1.
Doris维表 功能描述 创建Doris维表用于与输入流连接生成宽表。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。
WHERE region.regionkey = nation.regionkey) IN 确定子查询生成的任意值是否等于给定的表达式。IN的结果遵循null的标准规则。子查询必须只生成一列: SELECT name FROM nation WHERE regionkey IN (SELECT
弹性资源池并在弹性资源池中添加队列请参考创建弹性资源池并添加队列。 用户首次使用子账号创建队列时,需要先使用主账号登录控制台,在DLI的数据库中保持记录,才能创建队列。 新队列第一次运行作业时,需要一定的时间,通常为6~10分钟。 按需队列创建完成后,如果在1小时内未运行作业,系统将进行释放。
参数描述 表1 CREATE TABLE AS SELECT参数描述 参数 描述 database_name Database名称,由字母、数字和下划线(_)组成。 table_name Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。
本章节介绍了目前DLI所提供的API列表。 表1 DLI API列表 类型 说明 权限相关API 包括队列赋权、查看队列的使用者、数据赋权、查看数据库的使用者、查看表的使用者、查看表的用户权限和查看赋权对象使用者权限信息。 全局变量相关API 包括创建全局变量、删除全局变量、修改全局变量和查询所有全局变量。
常用数据源语法兼容性 语法 Hive Hudi 数据库的show schemas Y Y 数据库的create schema Y Y 数据库的alter schema Y N 数据库的drop schema Y Y 表的show tables/show create table/show
件夹。 data_type 是 String 导出数据的类型,目前API支持csv和json格式数据。 database_name 是 String 被导出数据的表所在的数据库名称。 table_name 是 String 被导出数据的表名称。 compress 是 String
单击需导出数据的表对应的数据库,进入该数据的“表管理”页面。 在对应表(DLI表)的“操作”栏中选择“更多”中的“导出”,弹出“导出数据”页面。 在“SQL编辑器”页面导出数据。 在管理控制台左侧,单击“SQL编辑器”。 在左侧导航栏选择“数据库”页签,鼠标左键单击需要导出数据的表对应的数据库名,进入“表”区域。
CSV Format 功能描述 CSV Format 允许我们基于CSV schema 进行解析和生成CSV 数据。目前的CSV schema 是基于table schema 推导出来的。 支持的Connector Kafka Upsert Kafka 参数说明 表1 参数 是否必选
L中定义的顺序连接所有主键字段,从而为每一行生成一个文档ID字符串。某些类型(例如BYTES、ROW、ARRAY和MAP等)由于没有对应的字符串表示形式,所以不允许其作为主键字段。如果未指定主键,Elasticsearch将自动生成随机的文档ID。 Elasticsearch结果表同时支持静态索引和动态索引。