-
关联OBS桶中嵌套的JSON格式数据如何创建表 - 数据湖探索 DLI
关联OBS桶中嵌套的JSON格式数据如何创建表 DLI支持关联OBS桶中嵌套的JSON格式数据,使用异步模式建表即可。 建表语句如下: create table tb1 using json options(path 'obs://....') 父主题: 作业开发
-
如何实现跨数据源查询 - 数据湖探索 DLI
如何实现跨数据源查询 跨数据源查询步骤如下: 假设数据存放在华为云上多个不同的地方,例如存放在OBS上。 在DLI中创建数据表,数据表对应的位置配置为数据所在的位置,例如OBS的某个桶路径(该数据实际还是在OBS中,不用迁移)。 在DLI中编写SQL直接查询分析这些数据。 父主题: 跨源分析问题
-
导入数据(废弃) - 数据湖探索 DLI
该API用于将数据从文件导入DLI或OBS表,目前仅支持将OBS上的数据导入DLI或OBS中。 当前接口已废弃,不推荐使用。 该API为异步操作。 导入数据时,可选择已存在的OBS桶路径或新建OBS桶路径,但只能指定一个OBS桶路径。 若需新建OBS桶,需遵守以下命名规则: 需全局唯一,不能与已有的任何桶名称重复。
-
Flink作业如何保存作业日志 - 数据湖探索 DLI
保存到OBS。 勾选“保存作业日志”参数后,需配置“OBS桶”参数,选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。 日志信息的保存路径为:“桶名/jobs/logs/作业id开头的目录”。其中,“桶名”可以自定义。“/jobs/logs/作业id开头的目录”为固定格式。
-
SQL作业访问外表报错:DLI.0001: org.apache.hadoop.security.AccessControlException: verifyBucketExists on {{桶名}}: status [403] - 数据湖探索 DLI
verifyBucketExists on {{桶名}}: status [403]。 解决措施 当前账号没有访问该外表所在OBS桶的权限,请添加相应OBS权限再执行该查询。 父主题: 作业运维报错
-
FileSytem结果表 - 数据湖探索 DLI
path。 说明: 当前schame只支持obs和hdfs。 当schema为obs时,表示输出到对象存储服务OBS。注意,OBS必须是并行文件系统,不能是OBS桶。 示例:obs://bucketName/fileName,表示数据输出到obs的bucketName桶下的fileName目录中。
-
FileSytem结果表 - 数据湖探索 DLI
path。 说明: 当前schame只支持obs和hdfs。 当schema为obs时,表示输出到对象存储服务OBS。注意,OBS必须是并行文件系统,不能是OBS桶。 示例:obs://bucketName/fileName,表示数据输出到obs的bucketName桶下的fileName目录中。
-
使用Spark作业访问sftp中的文件,作业运行失败,日志显示访问目录异常 - 数据湖探索 DLI
日志显示访问目录异常 Spark作业不支持访问sftp,建议将文件数据上传到OBS,再通过Spark作业进行读取和分析。 Spark读取OBS文件数据,详见使用Spark Jar作业读取和查询OBS数据。 父主题: 作业运维报错
-
LOAD数据到OBS外表报错:IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI
LOAD数据到OBS外表报错:IllegalArgumentException: Buffer size too small. size 问题描述 在Spark SQL作业中,使用LOAD DATA命令导入数据到DLI表中时报如下错误: error.DLI.0001: Illeg
-
清空数据 - 数据湖探索 DLI
需要执行Truncate命令的DLI表或者OBS表的名称。 partcol1 需要删除的DLI表或者OBS表的分区名称。 注意事项 只支持清除DLI表或者OBS表的数据。 示例 1 truncate table test PARTITION (class = 'test'); 父主题:
-
清空数据 - 数据湖探索 DLI
需要执行Truncate命令的DLI表或者OBS表的名称。 partcol1 需要删除的DLI表或者OBS表的分区名称。 注意事项 只支持清除DLI表或者OBS表的数据。 示例 1 truncate table test PARTITION (class = 'test'); 父主题:
-
导入数据至DLI表的方式 - 数据湖探索 DLI
Migration,简称CDM)将OBS上的数据导入到DLI,导入需要创建CDM队列。 具体操作请参见《云数据迁移服务用户指南》的使用CDM迁移OBS的数据到DLI。 在操作过程中请注意以下关键配置: DLI所在的VPC与CDM队列的VPC一致。 需要创建两个连接,即DLI连接,OBS连接。 传输数
-
使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI
myhuaweicloud.com OBS服务的域名。 在地区和终端节点获取OBS对应区域的域名。 bucketName 是 - OBS上的桶名称。该桶用于存放Spark程序中使用的jar包、Python程序文件、配置文件等。 obsPath 是 dli-spark-submit-resources
-
作业相关 - 数据湖探索 DLI
"select * from " + obsTable.getTableName(); String queryResultPath = "OBS Path"; SQLJob sqlJob = new SQLJob(queue, obsTable.getDb().getDatabaseName()
-
在使用Spark2.3.x访问元数据时,DataSource语法创建avro类型的OBS表创建失败 - 数据湖探索 DLI
x访问元数据时,DataSource语法创建avro类型的OBS表创建失败 问题描述 使用Spark访问元数据时,DataSource语法创建avro类型的OBS表创建失败。 图1 avro类型的OBS创建失败 根因分析 当前Spark2.3.x不支持创建avro类型的OBS表,Spark2.4.x及以上的版本支持avro类型的OBS表。
-
手动在OBS表的分区目录下添加了数据,但是无法查询到该部分数据 - 数据湖探索 DLI
手动在OBS表的分区目录下添加了数据,但是无法查询到该部分数据 问题现象 手动在OBS表的分区目录下上传了分区数据,但是在SQL编辑器中查询该表新增的分区数据时却查询不到。 解决方案 手动添加分区数据后,需要刷新OBS表的元数据信息。具体操作如下: MSCK REPAIR TABLE
-
file - 数据湖探索 DLI
file_path 格式 无。 说明 文件路径,该路径是OBS路径。 父主题: 标示符
-
新建Flink Jar作业 - 数据湖探索 DLI
Boolean 是否开启作业日志。 开启:true 关闭:false 默认:false obs_bucket 否 String 当“log_enabled”为“true”时, 用户授权保存作业日志的OBS桶名。 smn_topic 否 String 当作业异常时,向该SMN主题推送告警信息。
-
文件系统输出流(推荐) - 数据湖探索 DLI
使用文件系统输出流写入数据到OBS时,应避免多个作业写同一个目录的情况。 OBS对象存储桶的默认行为为覆盖写,可能导致数据丢失。 OBS并行文件系统桶的默认行为追加写,可能导致数据混淆。 因为以上OBS桶类型行为的区别,为避免作业异常重启可能导致的数据异常问题,请根据您的业务需求选择OBS桶类型。 HDFS代理用户配置
-
文件系统输出流(推荐) - 数据湖探索 DLI
使用文件系统输出流写入数据到OBS时,应避免多个作业写同一个目录的情况。 OBS对象存储桶的默认行为为覆盖写,可能导致数据丢失。 OBS并行文件系统桶的默认行为追加写,可能导致数据混淆。 因为以上OBS桶类型行为的区别,为避免作业异常重启可能导致的数据异常问题,请根据您的业务需求选择OBS桶类型。 HDFS代理用户配置