搜索_华为云

使用Livy提交Spark Jar作业 - 数据湖探索 DLI

使用Livy提交Spark Jar作业 DLI Livy简介 DLI Livy是基于开源的Apache Livy用于提交Spark作业到DLI的客户端工具。准备工作创建DLI队列。在“队列类型”中选择“通用队列”，即Spark作业的计算资源。具体请参考创建队列。准备一个linux

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
使用Spark作业访问DLI元数据 - 数据湖探索 DLI

使用Spark作业访问DLI元数据操作场景 DLI支持用户编写代码创建Spark作业来创建数据库、创建DLI表或OBS表和插入表数据等操作。本示例完整的演示通过编写java代码、使用Spark作业创建数据库、创建表和插入表数据的详细操作，帮助您在DLI上进行作业开发。该功能公测阶段

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
创建Kafka_SSL类型跨源认证 - 数据湖探索 DLI

创建Kafka_SSL类型跨源认证操作场景通过在DLI控制台创建的Kafka_SSL类型的跨源认证，将Kafka的认证信息存储到DLI，无需在SQL作业中配置账号密码，安全访问Kafka实例。 MRS Kafka开启Kerberos认证，未开启SSL认证时，创建Kerberos

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 使用DLI的跨源认证管理数据源访问凭证
创建Kerberos跨源认证 - 数据湖探索 DLI

创建Kerberos跨源认证操作场景通过在DLI控制台创建的Kerberos类型的跨源认证，将数据源的认证信息存储到DLI，无需在SQL作业中配置账号密码，安全访问数据源。 MRS Kafka开启Kerberos认证，未开启SSL认证时，创建Kerberos类型的认证。建表时通过

 帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 使用DLI的跨源认证管理数据源访问凭证
作业相关 - 数据湖探索 DLI
作业相关 - 数据湖探索 DLI

作业相关完整样例代码和依赖包说明请参考：Python SDK概述。导入数据 DLI提供导入数据的接口。您可以使用该接口将存储在OBS中的数据导入到已创建的DLI表中。示例代码如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

帮助中心 > 数据湖探索 DLI > SDK参考 > Python SDK > SQL作业相关
Hudi表模型设计规范 - 数据湖探索 DLI

Hudi表模型设计规范规则 Hudi表必须设置合理的主键。 Hudi表提供了数据更新和幂等写入能力，该能力要求Hudi表必须设置主键，主键设置不合理会导致数据重复。主键可以为单一主键也可以为复合主键，两种主键类型均要求主键不能有null值和空值，可以参考以下示例设置主键： SparkSQL

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
Upsert Kafka源表 - 数据湖探索 DLI

Upsert Kafka源表功能描述 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统，具有高吞吐量、内置分区、支持数据副本和容错的特性，适合在大规模消息处理场景中使用。作为 source，upsert-kafka 连接器生产changelog

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
Upsert Kafka结果表 - 数据湖探索 DLI

Upsert Kafka结果表功能描述 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统，具有高吞吐量、内置分区、支持数据副本和容错的特性，适合在大规模消息处理场景中使用。DLI将Flink作业的输出数据以upsert的模式输出到Kafka中。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
CSV Format - 数据湖探索 DLI
CSV Format - 数据湖探索 DLI

CSV Format 功能描述 CSV Format 允许我们基于CSV schema 进行解析和生成CSV 数据。目前的CSV schema 是基于table schema 推导出来的。更多具体使用可参考开源社区文档：CSV Format。支持的Connector Kafka

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
创建DLI表关联HBase - 数据湖探索 DLI

创建DLI表关联HBase 功能描述使用CREATE TABLE命令创建DLI表并关联HBase上已有的表。 Spark跨源开发场景中直接配置跨源认证信息存在密码泄露的风险，优先推荐您使用DLI提供的跨源认证方式。跨源认证简介及操作方法请参考跨源认证简介。前提条件创建DLI

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接HBase表
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

使用自定义镜像增强作业运行环境自定义镜像应用场景通过下载DLI提供的基础镜像再按需制作自定义镜像，将作业运行需要的依赖（文件、jar包或者软件）、私有能力等内置到自定义镜像中，以此改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器学习相关的

 帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
JSON Format - 数据湖探索 DLI
JSON Format - 数据湖探索 DLI

JSON Format 功能描述 JSON Format 能读写 JSON 格式的数据。当前，JSON schema 是从 table schema 中自动推导而得的。更多具体使用可参考开源社区文档：JSON Format。支持的Connector Kafka Upsert Kafka

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
功能总览 - 数据湖探索 DLI
功能总览 - 数据湖探索 DLI

功能总览功能总览全部数据湖探索权限管理弹性资源池 DLI元数据 DLI SQL作业 DLI Spark作业 DLI Flink作业跨源连接 DLI自定义委托自定义镜像 OBS 2.0支持数据湖探索数据湖探索（Data Lake Insight，以下简称DLI）是完全兼容

 帮助中心 > 数据湖探索 DLI > 功能总览
窗口 - 数据湖探索 DLI
窗口 - 数据湖探索 DLI

窗口 GROUP WINDOW 语法说明 Group Window定义在GROUP BY里，每个分组只输出一条记录，包括以下几种：分组函数在流处理表中的 SQL 查询中，分组窗口函数的 time_attr 参数必须引用一个合法的时间属性，且该属性需要指定行的处理时间或事件时间。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据操作语句DML
Hive源表 - 数据湖探索 DLI
Hive源表 - 数据湖探索 DLI

Hive源表简介 Apache Hive 已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样它也是一个数据管理平台，可用于发现，定义，和演化数据。 Flink与Hive的集成包含两个层面，一是利用了Hive的MetaStore作为持久化的

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
作业相关 - 数据湖探索 DLI
作业相关 - 数据湖探索 DLI

作业相关导入数据 DLI提供导入数据的接口。您可以使用该接口将存储在OBS中的数据导入到已创建的DLI表或者OBS表中。示例代码如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 //实例化importJob

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK > SQL作业相关
Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比 DLI整理了Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异，便于您了解Spark版本升级后SQL队列上运行的作业在适配新版本引擎时的影响。 histogram_numeric函数的返回值的类型不同

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
Hudi常见配置参数 - 数据湖探索 DLI

Hudi常见配置参数本章节介绍Hudi重要配置的详细信息，更多配置请参考hudi官网：https://hudi.apache.org/cn/docs/0.11.0/configurations/。提交DLI Spark SQL作业时，在SQL编辑器界面右上角的”设置”->”参数设置

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考
窗口 - 数据湖探索 DLI
窗口 - 数据湖探索 DLI

窗口 GROUP WINDOW 语法说明 Group Window定义在GROUP BY里，每个分组只输出一条记录，包括以下几种：分组函数表1 分组函数表分组窗口函数说明 TUMBLE(time_attr, interval) 定义一个滚动窗口。滚动窗口把行分配到有固定持续时间

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据操作语句DML
Kafka - 数据湖探索 DLI
Kafka - 数据湖探索 DLI

Kafka 功能描述 Kafka 连接器提供从 Kafka topic 中消费和写入数据的能力。 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统，具有高吞吐量、内置分区、支持数据副本和容错的特性，适合在大规模消息处理场景中使用。表1 支持类别

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表

总条数： 563

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Livy提交Spark Jar作业 - 数据湖探索 DLI

使用Spark作业访问DLI元数据 - 数据湖探索 DLI

创建Kafka_SSL类型跨源认证 - 数据湖探索 DLI

创建Kerberos跨源认证 - 数据湖探索 DLI

作业相关 - 数据湖探索 DLI

Hudi表模型设计规范 - 数据湖探索 DLI

Upsert Kafka源表 - 数据湖探索 DLI

Upsert Kafka结果表 - 数据湖探索 DLI

CSV Format - 数据湖探索 DLI

创建DLI表关联HBase - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

JSON Format - 数据湖探索 DLI

功能总览 - 数据湖探索 DLI

窗口 - 数据湖探索 DLI

Hive源表 - 数据湖探索 DLI

作业相关 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比 - 数据湖探索 DLI

Hudi常见配置参数 - 数据湖探索 DLI

窗口 - 数据湖探索 DLI

Kafka - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线