检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
去重 功能描述 对在列的集合内重复的行进行删除,只保留第一行或最后一行数据。 语法格式 SELECT [column_list] FROM ( SELECT [column_list], ROW_NUMBER() OVER ([PARTITION BY col1[
数据湖队列什么情况下是空闲状态? 队列空闲状态是指在DLI 作业管理中,该队列下均无SQL 作业运行,或者 Flink 作业运行、Spark 作业运行。 即一个自然小时内无作业运行,该自然小时为空闲状态。不会进行计费。 通常按需计费的队列,在空闲1h后计算资源会被释放,再次使用时
去重 功能描述 对在列的集合内重复的行进行删除,只保留第一行或最后一行数据。 语法格式 SELECT [column_list] FROM ( SELECT [column_list], ROW_NUMBER() OVER ([PARTITION BY col1[
OFFSET OFFSET OFFSET的作用是丢弃结果集中的前若干行数据。 OFFSET count [ ROW | ROWS ] 如果有ORDER BY,则OFFSET将会作用于排序后的结果集,OFFSET丢弃前若干行数据后保留的数据集,仍然是排序的: SELECT name
CLEAN 命令功能 用于根据配置对Timeline上的Instant进行clean,删除老旧的历史版本文件,以减少hudi表的数据存储及读写压力。 命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
MERGE INTO 命令功能 通过MERGE INTO命令,根据一张表或子查询的连接条件对另外一张表进行查询,连接条件匹配上的进行UPDATE或DELETE,无法匹配的执行INSERT。这个语法仅需要一次全表扫描就完成了全部同步工作,执行效率要高于INSERT+UPDATE。 命令格式
CLUSTER BY 功能描述 按字段实现表的分桶及桶内排序。 语法格式 1 2 SELECT attr_expr_list FROM table_reference CLUSTER BY col_name [,col_name ,...]; 关键字 CLUSTER BY:
查看计划 功能描述 执行该语句将返回该SQL语句的逻辑计划与物理执行计划。 语法格式 1 EXPLAIN [EXTENDED | CODEGEN] statement; 关键字 EXTENDED:指定该关键字后,会同时输出逻辑计划与物理执行计划。 CODEGEN:指定该关键字后
故障处理 运行Spark作业,作业运行失败,作业日志中提示No respond错误 问题现象 运行Spark作业,作业运行失败,作业日志中提示No respond错误 解决方案 重新创建Spark作业,创建作业时需要在“Spark参数(--conf)”中添加配置:“spark.sql
故障处理 问题1:运行Spark作业,作业运行失败,作业日志中提示java server connection或container启动失败 问题现象 运行Spark作业,作业运行失败,作业日志中提示java server connection或container启动失败。 解决方案
MERGE INTO 命令功能 通过MERGE INTO命令,根据一张表或子查询的连接条件对另外一张表进行查询,连接条件匹配上的进行UPDATE或DELETE,无法匹配的执行INSERT。这个语法仅需要一次全表扫描就完成了全部同步工作,执行效率要高于INSERT+UPDATE。 注意事项
TRUNCATE TABLE 语法 TRUNCATE TABLE table_name 描述 从表或分区中移除所有行。当表属性“auto.purge”采用默认值“false”时,被删除的数据行将保存到文件系统的回收站,否则,当“auto.purge”设置为“true”时,数据行将被直接删除。
OrderBy & Limit OrderBy 功能描述 主要根据时间属性按照升序进行排序 注意事项 目前仅支持根据时间属性进行排序 示例 对订单根据订单时间进行升序排序 SELECT * FROM Orders ORDER BY orderTime; Limit 功能描述 限制返回的数据结果个数
分组聚合 聚合函数把多行输入数据计算为一行结果。例如,有一些聚合函数可以计算一组行的 “COUNT”、“SUM”、“AVG”(平均)、“MAX”(最大)和 “MIN”(最小)。 对于流式查询,用于计算查询结果的状态可能无限膨胀。状态的大小大多数情况下取决于去重行的数量和分组持续的时间,持续时间较短的
更新跨源目的端源表后,未同时更新对应跨源表,导致insert作业失败怎么办? 问题现象 客户在DLI中创建了DWS跨源连接和DWS跨源表,然后对DWS中的源表schema进行更新,执行DLI作业,发现DWS中源表schema被修改为更新前的形式,导致schema不匹配,作业执行失败。
UNION | INTERSECT | EXCEPT UNION、INTERSECT和EXCEPT都是集合操作。都用来将多个SELECT语句的结果集合并成单个结果集。 UNION UNION将第一个查询的结果集中的所有行与第二个查询的结果集中的行合并。 query UNION [ALL
OrderBy & Limit OrderBy 功能描述 主要根据时间属性按照升序进行排序 注意事项 目前仅支持根据时间属性进行排序 示例 对订单根据订单时间进行升序排序 SELECT * FROM Orders ORDER BY orderTime; Limit 功能描述 限制返回的数据结果个数
查询作业结果-方式二(废弃) 功能介绍 该API用于在执行SQL查询语句的作业完成后,查看该作业执行的结果。目前仅支持查看“QUERY”类型作业的执行结果。 该API只能查看前1000条的结果记录,若要查看全部的结果记录,需要先导出查询结果再进行查看,详细请参见导出查询结果。 当前接口已废弃,不推荐使用。
使用Spark Jar作业读取和查询OBS数据 操作场景 DLI完全兼容开源的Apache Spark,支持用户开发应用程序代码来进行作业数据的导入、查询以及分析处理。本示例从编写Spark程序代码读取和查询OBS数据、编译打包到提交Spark Jar作业等完整的操作步骤说明来帮助您在DLI上进行作业开发。