-
为什么insert overwrite覆盖分区表数据的时候,覆盖了全量数据? - 数据湖探索 DLI
overwrite覆盖分区表数据的时候,覆盖了全量数据? 如果需要动态覆盖DataSource表指定分区数据,需要先配置参数:dli.sql.dynamicPartitionOverwrite.enabled=true,再通过“insert overwrite”语句实现,“dli.sql.dyna
-
查询Oracle表 - 数据湖探索 DLI
查询Oracle表 功能描述 SELECT命令用于查询Oracle表中的数据。 语法格式 1 SELECT * FROM table_name LIMIT number; 关键字 LIMIT:对查询结果进行限制,number参数仅支持INT类型。 注意事项 如果在建表时没有指定
-
regexp - 数据湖探索 DLI
regexp_replace1 regexp_replace1函数用于将source字符串中第occurrence次匹配pattern的子串,替换成指定字符串replace_string后,返回结果字符串。 regexp_replace1函数只适用于Spark 2.4.5及之前的版本。
-
SQL作业访问外表报错:DLI.0001: org.apache.hadoop.security.AccessControlException: verifyBucketExists on {{桶名}}: status [403] - 数据湖探索 DLI
SQL作业访问外表报错:DLI.0001: org.apache.hadoop.security.AccessControlException: verifyBucketExists on {{桶名}}: status [403] 问题现象 SQL作业访问外表报错:DLI.0001:
-
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 操作场景 Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。 该问题可以通过设置spark.sql.shuffle.partitions提高shuffle
-
使用SDK查询SQL作业结果,如何设置超时时间? - 数据湖探索 DLI
使用SDK查询SQL作业结果,如何设置超时时间? 查询SQL作业结果SDK,在提交时会确认作业状态,系统设置的超时时间是300s,如果作业不是“FINISHED”状态,在达到300s后会抛出异常超时的错误。 建议使用getJobId()获取jobid,然后调用queryJobResultInfo(String
-
添加分区(只支持OBS表) - 数据湖探索 DLI
主要有以下两种场景: 给OBS分区表插入对应的分区数据,数据插入成功后OBS表才会生成分区元数据信息,后续则可以根据对应分区列进行查询等操作。 手工拷贝分区目录和数据到OBS分区表路径下,执行本章节介绍的分区添加命令生成分区元数据信息,后续即可根据对应分区列进行查询等操作。 本章节重点介绍使用ALTER
-
OBS表压缩率较高 - 数据湖探索 DLI
倍压缩率),建议在提交导入数据到DLI表作业时,在submit-job请求体conf字段中配置“dli.sql.files.maxPartitionBytes=33554432”,该配置项默认值为128MB,将其配置成32MB,可以减少单个任务读取的数据量,避免因过高的压缩比,导致解压后单个任务处理的数据量过大。
-
OBS表如何映射为DLI的分区表? - 数据湖探索 DLI
OBS表如何映射为DLI的分区表? 该示例将car_info数据,以day字段为分区字段,parquet为编码格式(目前仅支持parquet格式),转储数据到OBS。更多内容请参考《数据湖探索Flink SQL语法参考》。 1 2 3 4 5 6 7 8 9 10
-
创建DLI表关联DCS - 数据湖探索 DLI
跨源密码认证名称。跨源认证信息创建方式请参考《数据湖探索用户指南》>《跨源认证》。 encryption 使用跨源密码认证时配置为“true”。 table 对应Redis中的Key或Hash Key。 插入redis数据时必填。 查询redis数据时与“keys.pattern”参数二选一。
-
构造请求 - 数据湖探索 DLI
到这里为止这个请求需要的内容就具备齐全了,您可以使用curl、Postman或直接编写代码等方式发送请求调用API。对于IAM获取用户Token接口,返回的响应消息头中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。
-
scala样例代码 - 数据湖探索 DLI
返回结果: 提交Spark作业 将写好的代码生成jar包,上传至DLI中。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 如果MRS集群开启了Kerberos认证,创建Spark作业时需要将krb5.conf和user.keytab
-
使用CDM迁移数据到DLI,迁移作业日志上报UQUERY - 数据湖探索 DLI
源队列”参数错误选成了DLI的“通用队列”,应该选择DLI的“SQL队列”。 解决方案 登录DLI管理控制台,选择“队列管理”,在队列管理界面查看是否有“SQL队列”类型的队列。 是,执行3。 否,执行2购买“SQL队列”类型的队列。 选择“资源管理 > 弹性资源池”,选择已购买
-
用户导表到OBS报“path obs://xxx already exists”错误 - 数据湖探索 DLI
already exists”错误 用户可新建一个不存在的OBS目录或手动删除已存在的OBS目录,再重新提交作业。删除已存在的OBS目录后,目录下的所有数据将会被删除。请谨慎执行此删除操作。 父主题: 作业运维报错
-
java样例代码 - 数据湖探索 DLI
上述示例中,因为CSS安全集群关闭了https访问,所以“es.net.ssl”参数要设置为“false”。“es.net.http.auth.user”以及“es.net.http.auth.pass”为创建集群时设置的账号和密码。 插入数据 1 sparkSession.sql("insert
-
对两个表进行join操作时,提示:SQL - 数据湖探索 DLI
对两个表进行join操作时,提示:SQL_ANALYSIS_ERROR: Reference 't.id' is ambiguous, could be: t.id, t.id.; 出现这个提示,表示进行join操作的两个表中包含相同的字段,但是在执行命令时,没有指定该字段的归属。
-
创建DLI表关联OpenTSDB - 数据湖探索 DLI
创建DLI表关联OpenTSDB 功能描述 使用CREATE TABLE命令创建DLI表并关联OpenTSDB上已有的metric,该语法支持CloudTable服务的OpenTSDB和MRS服务的OpenTSDB。 前提条件 创建DLI表关联OpenTSDB之前需要创建跨源连接
-
LOAD数据到OBS外表报错:IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI
bytes 问题原因 上述报错可能原因是当前导入的文件数据量较大,同时因为spark.sql.shuffle.partitions参数设置的并行度过大,导致缓存区大小不够而导入数据报错。 解决方案 建议可以尝试调小spark.sql.shuffle.partitions参数值来解决缓冲区不足问题。具体该参数设置步骤如下:
-
Failed to create the database. {"error - 数据湖探索 DLI
Failed to create the database. {"error_code":"DLI.1028";"error_msg":"Already reached the maximum quota of databases:XXX". 提示配额不足,如何处理? 怎样查看我的配额
-
执行查询语句报错:There should be at least one partition pruning predicate on partitioned table XX.YYY - 数据湖探索 DLI
执行查询语句报错:There should be at least one partition pruning predicate on partitioned table XX.YYY 原因分析: 上述报错信息说明:partitioned table XX.YYY执行查询时,其查询条件中未使用其表分区列。