搜索_华为云

将OBS数据导入至DLI - 数据湖探索 DLI

前提条件待导入的数据已存储到OBS上。导入数据步骤导入数据的入口有两个，分别在“数据管理”和“SQL编辑器”页面。在“数据管理”页面导入数据。在管理控制台的左侧，选择“数据管理”>“库表管理”。单击需导入数据的表对应的数据库名称，进入该数据库的“表管理”页面。在

 帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表 > 在DLI控制台管理表资源
产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

基于文件的权限管理。高性能性能基于软硬件一体化的深度垂直优化。大数据开源版本性能。跨源分析支持多种数据格式，云上多种数据源、ECS自建数据库以及线下数据库，数据无需搬迁，即可实现对云上多个数据源进行分析，构建企业的统一视图，帮助企业快速完成业务创新和数据价值探索。

帮助中心 > 数据湖探索 DLI > 产品介绍
清空数据 - 数据湖探索 DLI
清空数据 - 数据湖探索 DLI

清空数据功能描述清除DLI表或者OBS表的数据。语法格式 1 TRUNCATE TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]; 关键字表1 关键字说明参数描述 tablename 需要执

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据相关
导入数据 - 数据湖探索 DLI
导入数据 - 数据湖探索 DLI

PERMISSIVE：选择PERMISSIVE模式时，如果某一列数据类型与目标表列数据类型不匹配，则该行数据将被设置为null。 DROPMALFORMED：选择DROPMALFORMED模式时，如果某一列数据类型与目标表列数据类型不匹配，则不导入该行数据。 FAILFAST：选择FAILFAST模

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据相关
如何合并小文件 - 数据湖探索 DLI

如何合并小文件使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。推荐使用临时表进行数据中转自读自写在突发异常场景下存在数据丢失的风险执行SQL： INSERT OVERWRITE TABLE tablename select

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
SQL作业如何指定表的部分字段进行表数据的插入 - 数据湖探索 DLI

SQL作业如何指定表的部分字段进行表数据的插入如果需要将数据插入到表中，但只想指定部分字段，可以使用INSERT INTO语句结合SELECT子句来实现。但是DLI目前不支持直接在INSERT INTO语句中指定部分列字段进行数据插入，您需要确保在SELECT子句中选择的字段

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
原生数据类型 - 数据湖探索 DLI

原生数据类型 DLI支持原生数据类型，请参见表1。表1 原生数据类型数据类型描述存储空间范围 OBS表支持情况 DLI表支持情况 INT 有符号整数 4字节 -2147483648～2147483647 是是 STRING 字符串 - - 是是 FLOAT 单精度浮点型

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据类型
清理多版本数据 - 数据湖探索 DLI

清理多版本数据功能描述多版本数据保留周期是在表每次执行insert overwrite或者truncate语句时触发，所以当表的多版本数据在保留周期时间外但是后续该表不会再执行insert overwrite或者truncate语句时，多版本保留周期外的数据不会自动清理。可以

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 多版本备份恢复数据
数据相关 - 数据湖探索 DLI
数据相关 - 数据湖探索 DLI

数据相关导入数据插入数据清空数据

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
使用DLI提交Spark Jar作业 - 数据湖探索 DLI

DLI允许用户提交编译为Jar包的Spark作业，Jar包中包含了Jar作业执行所需的代码和依赖信息，用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。在提交Spark Jar作业前，将程序包上传至OBS，并将程序包与数据和作业参数一起提交以运行作业。本例介绍通过DLI控制台提交Jar作业程序包的

 帮助中心 > 数据湖探索 DLI > 快速入门
数据迁移与数据传输 - 数据湖探索 DLI

数据迁移与数据传输数据迁移与传输方式概述迁移外部数据源数据至DLI 配置DLI读写外部数据源数据

 帮助中心 > 数据湖探索 DLI > 用户指南
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度操作场景 Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Spark jar 如何读取上传文件 - 数据湖探索 DLI

Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径，即：SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的，所以不能将Driver中获取到的

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
数据保护技术 - 数据湖探索 DLI

数据保护技术数据存储安全为了确保您的个人敏感数据（例如用户名、密码、手机号码等）不被未经过认证、授权的实体或者个人获取，DLI对用户数据的存储和传输进行加密保护，以防止个人数据泄露，保证您的个人数据安全。数据销毁机制用户删除DLI队列后，存储在集群上的用户个人敏感数据会随之删除。

帮助中心 > 数据湖探索 DLI > 产品介绍 > 安全
Flink作业如何保存作业日志？ - 数据湖探索 DLI

在作业列表中，单击对应的作业名称，然后在“运行日志”页签，可以单击页面提供的OBS链接跳转至对应的路径下。关于如何创建Flink SQL作业或者Flink Jar作业，请参考《数据湖探索用户指南》。父主题： Flink作业咨询类

 帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业咨询类
SQL作业运行慢如何定位 - 数据湖探索 DLI

ask耗时过长导致整体作业时间变长问题。参考图10可以看到数据倾斜时，单个任务的shuffle数据远大于其他Task的数据，导致该任务耗时时间变长。图10 数据倾斜示例图数据倾斜原因和解决： Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。对join连接条件进行group

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？缺少pymysql模块，可以查看是否有对应的egg包，如果没有，在“程序包管理”页面上传pyFile。具体步骤参考如下：将egg包上传到指定的OBS桶路径下。登录DLI管理控制台，单击“数据管理

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
FileSytem结果表 - 数据湖探索 DLI

FileSystem结果表用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。数据生成后，可直接对生成的目录创建非DLI表，通过DLI SQL进行下一步处理分析，并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。语法格式

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
FileSystem结果表 - 数据湖探索 DLI

FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
如何在一个Flink作业中将数据写入到不同的Elasticsearch集群中？ - 数据湖探索 DLI

如何在一个Flink作业中将数据写入到不同的Elasticsearch集群中？在Flink 作业中，可以使用CREATE语句来定义Source表和Sink表，并指定它们的连接器类型以及相关的属性。如果需要将数据写入到不同的Elasticsearch集群，您需要为每个集群配置不

 帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink SQL作业类

总条数： 1508

上一页
1
2
3
4
5
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

将OBS数据导入至DLI - 数据湖探索 DLI

产品优势 - 数据湖探索 DLI

清空数据 - 数据湖探索 DLI

导入数据 - 数据湖探索 DLI

如何合并小文件 - 数据湖探索 DLI

SQL作业如何指定表的部分字段进行表数据的插入 - 数据湖探索 DLI

原生数据类型 - 数据湖探索 DLI

清理多版本数据 - 数据湖探索 DLI

数据相关 - 数据湖探索 DLI

使用DLI提交Spark Jar作业 - 数据湖探索 DLI

数据迁移与数据传输 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

Spark jar 如何读取上传文件 - 数据湖探索 DLI

数据保护技术 - 数据湖探索 DLI

Flink作业如何保存作业日志？ - 数据湖探索 DLI

SQL作业运行慢如何定位 - 数据湖探索 DLI

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

如何在一个Flink作业中将数据写入到不同的Elasticsearch集群中？ - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线