检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SQL作业支持spark和Trino两种引擎。 spark:显示执行引擎为“spark”的作业。 trino:显示执行引擎为“trino”的作业。 用户名 执行该作业的用户名。 类型 作业的类型,包括如下。 IMPORT:导入数据到DLI的作业。 EXPORT:从DLI导出数据的作业。 DCL:包括传统DCL,以及队列权限相关的操作。
API和SQL查询语句中来访问。详情参考Apache Flink Catalogs 功能描述 HiveCatalog有两个用途:作为原生Flink元数据的持久化存储,以及作为读写现有Hive元数据的接口。 Flink 的Hive 文档提供了有关设置 HiveCatalog以及访问现有 Hive
该路径下的文件夹须不存在,如请求样例中的“path”文件夹。 compress 否 String 导出数据的压缩格式,目前支持gzip,bzip2和deflate压缩方式; 默认值为none,表示不压缩。 data_type 是 String 导出数据的存储格式,目前API支持csv和json格式。
该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 若使用MRS HBase,请在
DLI将Flink作业的输出数据写入数据接入服务(DIS)中。适用于将数据过滤后导入DIS通道,进行后续处理的场景。 数据接入服务(Data Ingestion Service,简称DIS)为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可
该场景作业需要运行在DLI的独享队列上,因此要与DWS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 语法格式 1 2 3 4 5 6
该场景作业需要运行在DLI的独享队列上,因此要与DWS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 语法格式 1 2 3 4 5 6
LEFT OUTER JOIN:返回左表的所有记录,没有匹配值的记录将返回NULL。 注意事项 所要进行JOIN连接的表必须是已经存在的表,否则会出错。 示例 左外连接时利用student_info表中的courseId与course_info中的courseId进行匹配,返回已
join_condition:连接条件,如果该条件恒成立(比如1=1),该连接就是笛卡尔连接。所以,笛卡尔连接输出的记录条数等于被连接表的各记录条数的乘积,若需要进行笛卡尔积连接,需使用专门的关键词CROSS JOIN。CROSS JOIN是求笛卡尔积的标准方式。 注意事项 所要进行JOIN连接的表必须是已经存在的表,否则会出错。
IN和WHERE EXISTS中嵌套子查询来实现。左半连接与左外连接的区别是,左半连接将返回左表中符合JOIN条件的记录,而左外连接将返回左表所有的记录,匹配不上JOIN条件的记录将返回NULL值。 注意事项 所要进行JOIN连接的表必须是已经存在的表,否则会出错。 此处的attr
不等值连接 功能描述 不等值连接中,多张表通过不相等的连接值进行连接,并返回满足条件的结果集。 语法格式 1 2 SELECT attr_expr_list FROM table_reference JOIN table reference ON non_equi_join_condition;
数据倾斜、网络问题或任务过多导致的。 解决方案: 设置并发数:通过设置合适的并发数,可以启动多任务并行运行,从而提高作业的处理能力。 例如访问DWS大批量数据库数据时设置并发数,启动多任务的方式运行,避免作业运行超时。 具体并发设置可以参考对接DWS样例代码中的partition
持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。 注意事项 创建表时会统计大小。 添加数据时不会修改大小。 如需查看表大小可以通过OBS查看。
增强型跨源连接相关API(废弃) 创建路由(废弃) 删除路由(废弃) 父主题: 历史API
集合函数 函数说明 表1 集合函数说明 集合函数 函数说明 CARDINALITY(array) 返回数组中元素个数 array ‘[’ integer ‘]’ 返回数组索引为integer的元素。索引从1开始 ELEMENT(array) 返回数组中的唯一元素。 若数组为空,则返回null
模板,您可以按需选择自定义模板或系统模板创建SQL作业。 本样例演示通过一个TPC-H样例模板开发并提交SQL作业的基本流程: 操作步骤 登录DLI管理控制台。 在DLI管理控制台,选择“作业模板 > SQL模板”。 在“tpchQuery”下找到适合您业务场景的样例模板,单击操作列的“执行”进入SQL编辑器页面。
否 String 队列名称。 说明: 队列名称不区分大小写,系统会自动转换为小写。 description 否 String 队列描述信息。 owner 否 String 创建队列的用户。 create_time 否 Long 创建队列的时间。是单位为“毫秒”的时间戳。 queueType
插入数据 功能描述 将SELECT查询结果或某条数据插入到表中。 约束限制 insert overwrite语法不适用于“自读自写”场景,该场景因涉及数据的连续处理和更新,如果使用insert overwrite语法可能存在数据丢失风险。 "自读自写"是指在处理数据时能够读取数据
持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。 注意事项 创建表时会统计大小。 添加数据时不会修改大小。 如需查看表大小可以通过OBS查看。
maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.autoBroadcastJoinThreshold 209715200 配置执行连接时显示所有工作节点的表的最大字节大小。通过将此值设置为“-1”,可以禁用显示。 说明: