搜索_华为云

SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中 - 数据湖探索 DLI

SQL作业存在join小表操作时，会触发自动广播所有executor，使得join快速完成。但同时该操作会增加executor的内存消耗，如果executor内存不够时，导致作业运行失败。解决措施排查执行的SQL中是否有使用“/*+ BROADCAST(u) */”强制做broadcastjoin。如果有，则需要去掉该标识。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
LOAD数据到OBS外表报错：IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI

to read 143805 bytes 问题原因上述报错可能原因是当前导入的文件数据量较大，同时因为spark.sql.shuffle.partitions参数设置的并行度过大，导致缓存区大小不够而导入数据报错。解决方案建议可以尝试调小spark.sql.shuffle.

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业运维类
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。在安装容器引擎的虚拟机中执行上一步复制的登录指令。创建容器镜像组织。如果已创建组织则本步骤可以忽略。登录SWR管理控制台。选择左侧导航栏的“组织管理”，单击页面右上角的“创建组织”。填写组织名称，单击“确定”。

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

提供了更实时高效的多样性算力，可支撑更丰富的大数据处理需求。产品内核及架构深度优化，综合性能是传统MapReduce模型的百倍以上，SLA保障99.95%可用性。图1 DLI Serverless架构与传统自建Hadoop集群相比，Serverless架构的DLI还具有以下优势：

帮助中心 > 数据湖探索 DLI > 产品介绍
数据湖探索简介 - 数据湖探索 DLI

时，队列2不能使用队列1中的资源，只能单独对队列1进行扩容。添加到同一个弹性资源池的多个队列，CU资源可以共享，达到资源的合理利用。配置跨源时，必须为每个队列分配不重合的网段，占用大量VPC网段。多队列通过弹性资源池统一进行网段划分，减少跨源配置的复杂度。资源调配多个队

 帮助中心 > 数据湖探索 DLI > 产品介绍
值构建函数 - 数据湖探索 DLI
值构建函数 - 数据湖探索 DLI

value2]*) 返回从值列表 (value1, value2, …) 创建的行。隐式行构造函数支持任意表达式作为字段，但至少需要两个字段。显式行构造函数可以处理任意数量的字段，但目前还不能很好地支持所有类型的字段表达式。 ARRAY ‘[’ value1 [, value2 ]*

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
Hudi结果表 - 数据湖探索 DLI
Hudi结果表 - 数据湖探索 DLI

field：进行分桶时计算Hash值的字段，必须为主键的子集，默认为Hudi表的主键。该参数不填则默认为recordkey.field。创建Flink OpenSource SQL作业时，在作业编辑界面的“运行参数”处，“Flink版本”需要选择“1.15”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hudi
FileSytem结果表 - 数据湖探索 DLI

type' = '' ); 注意事项该建表语法的数据输出目录为OBS时，OBS必须为并行文件系统，不能为OBS桶。使用fileSystem时必须开启checkpoint，保证作业的一致性。 format.type为parquet时，支持的数据类型为string, boolean, tinyint

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
使用Notebook实例提交DLI作业 - 数据湖探索 DLI

Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块，提供在线的开发和调试能力，用于编写和调测模型训练代码。完成DLI对接Notebook实例后，您可以基于Notebook提供的Web交互的开发环境同时完成代码的编写与作业的开发，使用Notebook灵活的进行数据分析与探索，本节操

 帮助中心 > 数据湖探索 DLI > 用户指南
对象存储OBS结果表 - 数据湖探索 DLI

考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subta

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

原生支持的。对于数据分析来说Python是很自然的选择，而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序，通常会把程序打成Jar包并依赖其他一些第三方的Jar，同样的Python程序也有依赖一些第三方库，尤其是基于PySpark的融合机器学习相关的大数据分析

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Hudi源表 - 数据湖探索 DLI
Hudi源表 - 数据湖探索 DLI

登录DLI管理控制台，选择“作业管理 > Flink作业”。单击对应的Flink作业名称，选择“运行日志”，单击“OBS桶”，根据作业运行的日期，找到对应日志的文件夹。进入对应日期的文件夹后，找到名字中包含“taskmanager”的文件夹进入，下载获取taskmanager.out文件查看结果日志。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hudi
DLI弹性资源池与队列简介 - 数据湖探索 DLI

弹性资源池模式：计算资源的池化管理模式，提供计算资源的动态扩缩容能力，同一弹性资源池中的队列共享计算资源。通过合理设置队列的计算资源分配策略，可以提高计算资源利用率，应对业务高峰期的资源需求。适用场景：适合业务量有明显波动的场合，如周期性的数据批处理任务或实时数据处理需求。支持的队列类型：

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列
使用CDM迁移数据至DLI - 数据湖探索 DLI

输入便于记忆和区分的连接名称。 mysqllink 数据库服务器 MySQL数据库的IP地址或域名。 - 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名拥有MySQL数据库的读、写和删除权限的用户。 admin 密码用户的密码。 -

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
Canal Format - 数据湖探索 DLI
Canal Format - 数据湖探索 DLI

系统中。在很多情况下，利用这个特性非常的有用，例如将增量数据从数据库同步到其他系统日志审计数据库的实时物化视图关联维度数据库的变更历史，等等。 Flink 还支持将 Flink SQL 中的 INSERT / UPDATE / DELETE 消息编码为 Canal 格式的 JSON 消息，输出到

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > Format
FileSystem结果表 - 数据湖探索 DLI

考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subta

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
功能总览 - 数据湖探索 DLI
功能总览 - 数据湖探索 DLI

队列，队列关联到具体的作业和数据处理任务，是资源池中资源被实际使用和分配的基本单元，即队列是执行作业所需的具体的计算资源。同一弹性资源池中，队列之间的计算资源支持共享。通过合理设置队列的计算资源分配策略，可以提高计算资源利用率。发布区域：以用户指南中的说明为准 DLI对接LakeFormation

帮助中心 > 数据湖探索 DLI > 功能总览
使用DLI提交Spark Jar作业 - 数据湖探索 DLI

单击“提交”完成弹性资源池的创建。在弹性资源池的列表页，选择要操作的弹性资源池，单击操作列的“添加队列”。配置队列的基础配置，具体参数信息如下。表3 弹性资源池添加队列基础配置参数名称参数说明配置样例名称弹性资源池添加的队列名称。 dli_queue_01 类型选择创建的队列类型。

帮助中心 > 数据湖探索 DLI > 快速入门
在DataArts Studio开发DLI SQL作业 - 数据湖探索 DLI

创建弹性资源池后，您可以在弹性资源池中创建多个队列，队列关联到具体的作业和数据处理任务，是资源池中资源被实际使用和分配的基本单元，即队列是执行作业所需的具体的计算资源。同一弹性资源池中，队列之间的计算资源支持共享。通过合理设置队列的计算资源分配策略，可以提高计算资源利用率。具体操作请参考：创建弹性资源池并添加队列。

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
创建Hive Catalog - 数据湖探索 DLI

Hive兼容表是以Hive兼容的方式存储的，他们的元数据和实际的数据都在分层存储中。因此，通过flink创建的与hive兼容的表，可以通过hive查询。 Hive通用表是特定于Flink的。当使用HiveCatalog创建通用表时，只是使用HMS来持久化元数据。虽然这些表对Hive来说是可见的，但Hi

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive

总条数： 28

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中 - 数据湖探索 DLI

LOAD数据到OBS外表报错：IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

产品优势 - 数据湖探索 DLI

数据湖探索简介 - 数据湖探索 DLI

值构建函数 - 数据湖探索 DLI

Hudi结果表 - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

使用Notebook实例提交DLI作业 - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

Hudi源表 - 数据湖探索 DLI

DLI弹性资源池与队列简介 - 数据湖探索 DLI

使用CDM迁移数据至DLI - 数据湖探索 DLI

Canal Format - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

功能总览 - 数据湖探索 DLI

使用DLI提交Spark Jar作业 - 数据湖探索 DLI

在DataArts Studio开发DLI SQL作业 - 数据湖探索 DLI

创建Hive Catalog - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线