搜索_华为云

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据应用场景 Parquet是面向分析型业务的列式存储格式，这种格式可以加快查询速度，查询Parquet格式数据时，只检查所需要的列并对它们的值执行计算，也就是说，只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项

 帮助中心 > 数据湖探索 DLI > 最佳实践
创建并提交SQL作业 - 数据湖探索 DLI

创建并提交SQL作业 SQL编辑器简介 SQL作业编辑器支持使用SQL语句执行数据查询操作。支持SQL2003，兼容SparkSQL，详细语法描述请参见《数据湖探索SQL语法参考》。在总览页面，单击左侧导航栏中的“SQL编辑器”或SQL作业简介右上角的“创建作业”，可进入“SQL编辑器”页面。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
导入数据 - 数据湖探索 DLI
导入数据 - 数据湖探索 DLI

导入数据功能描述 LOAD DATA可用于导入CSV、Parquet、ORC、JSON、Avro格式的数据，内部将转换成Parquet数据格式进行存储。语法格式 1 2 LOAD DATA INPATH 'folder_path' INTO TABLE [db_name.]table_name

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据相关
使用CDM迁移数据至DLI - 数据湖探索 DLI

使用CDM迁移数据至DLI CDM提供了可视化的迁移任务配置页面，支持多种数据源到数据湖的迁移能力。本节操作介绍使用CDM迁移工具将数据从数据源迁移至DLI的操作步骤。图1 使用CDM迁移数据至DLI操作流程步骤1：创建CDM集群 CDM集群用于执行数据迁移作业，将数据从数据源迁移至DLI。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 DLI整理了Spark2.4.x与Spark3.3.x版本在通用队列的差异，便于您了解Spark版本升级后通用队列上运行的作业在适配新版本引擎时的影响。 log4j依赖从1.x版本修改为2.x版本说明： log4j依赖从1

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
Avro Format - 数据湖探索 DLI
Avro Format - 数据湖探索 DLI

Avro Format 功能描述 Avro格式允许基于Avro schema 读取和写入Avro 数据。目前，Avro schema 从表schema 推导。支持的Connector Kafka Upsert Kafka 参数说明表1 参数说明参数是否必选默认值类型说明

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > Format
Avro Format - 数据湖探索 DLI
Avro Format - 数据湖探索 DLI

Avro Format 功能描述 Avro格式允许基于Avro schema 读取和写入Avro 数据。目前，Avro schema 从表schema 推导。更多具体使用可参考开源社区文档：Avro Format。支持的Connector Kafka Upsert Kafka

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
对象存储OBS结果表 - 数据湖探索 DLI

对象存储OBS结果表功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
构造请求 - 数据湖探索 DLI
构造请求 - 数据湖探索 DLI

构造请求本章节介绍REST API请求的组成，并以调用IAM服务的获取用户Token来说明如何调用API，该API获取用户的Token，Token可以用于调用其他API时鉴权。您还可以通过这个视频教程了解如何构造请求调用API：https://bbs.huaweicloud.com/videos/102987

帮助中心 > 数据湖探索 DLI > API参考 > 如何调用API
典型场景示例：迁移Kafka数据至DLI - 数据湖探索 DLI

典型场景示例：迁移Kafka数据至DLI 本文为您介绍如何通过CDM数据同步功能，迁移MRS Kafka数据至DLI。前提条件已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。创建DLI队列时队列类型需要选择为“SQL队列”。已创建包含Kafka组件的

 帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
概述 - 数据湖探索 DLI
概述 - 数据湖探索 DLI

概述欢迎使用数据湖探索。数据湖探索（Data Lake Insight，简称DLI）是完全兼容Apache Spark、Apache Flink、trino生态，提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器，即开即用。支持标准SQL/Spark

帮助中心 > 数据湖探索 DLI > API参考 > API使用前必读
MySql CDC - 数据湖探索 DLI
MySql CDC - 数据湖探索 DLI

MySql CDC 功能描述 MySQL的CDC源表，即MySQL的流式源表，会先读取数据库的历史全量数据，并平滑切换到Binlog读取上，保证数据的完整读取。表1 支持类别类别详情支持表类型源表前提条件 MySQL CDC要求MySQL版本为5.6，5.7或8.0.x。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表
数据湖探索简介 - 数据湖探索 DLI

数据湖探索简介什么是数据湖探索数据湖探索（Data Lake Insight，简称DLI）是完全兼容Apache Spark、Apache Flink、HetuEngine生态，提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器，即开即用。

帮助中心 > 数据湖探索 DLI > 产品介绍
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

Hbase源表功能描述创建source流从HBase中获取数据，作为作业的输入数据。HBase是一个稳定可靠，性能卓越、可伸缩、面向列的分布式云存储系统，适用于海量数据存储以及分布式计算的场景，用户可以利用HBase搭建起TB至PB级数据规模的存储系统，对数据轻松进行过滤分析

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

Hbase源表功能描述创建source流从HBase中获取数据，作为作业的输入数据。HBase是一个稳定可靠，性能卓越、可伸缩、面向列的分布式云存储系统，适用于海量数据存储以及分布式计算的场景，用户可以利用HBase搭建起TB至PB级数据规模的存储系统，对数据轻松进行过滤分析

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hbase
Elasticsearch - 数据湖探索 DLI
Elasticsearch - 数据湖探索 DLI

Elasticsearch 功能描述 DLI将Flink作业的输出数据输出到云搜索服务CSS的Elasticsearch 引擎的索引中。 Elasticsearch是基于Lucene的当前流行的企业级搜索服务器，具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表
Upsert Kafka结果表 - 数据湖探索 DLI

Upsert Kafka结果表功能描述 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统，具有高吞吐量、内置分区、支持数据副本和容错的特性，适合在大规模消息处理场景中使用。DLI将Flink作业的输出数据以upsert的模式输出到Kafka中。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
查询队列详情 - 数据湖探索 DLI

查询队列详情功能介绍该API用于列出该project下指定的队列详情。调试您可以在API Explorer中调试该接口。 URI URI格式： GET /v1.0/{project_id}/queues/{queue_name} 参数说明表1 URI参数参数名称是否必选

 帮助中心 > 数据湖探索 DLI > API参考 > 队列相关API（推荐）
Upsert Kafka源表 - 数据湖探索 DLI

Upsert Kafka源表功能描述 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统，具有高吞吐量、内置分区、支持数据副本和容错的特性，适合在大规模消息处理场景中使用。作为 source，upsert-kafka 连接器生产changel

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
创建队列 - 数据湖探索 DLI
创建队列 - 数据湖探索 DLI

创建队列功能介绍该API用于创建队列，该队列将会绑定用户指定的计算资源。新队列第一次运行作业时，需要一定的时间，通常为5~15分钟。调试您可以在API Explorer中调试该接口。 URI URI格式： POST /v1.0/{project_id}/queues 参数说明

 帮助中心 > 数据湖探索 DLI > API参考 > 队列相关API（推荐）

总条数： 38

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

创建并提交SQL作业 - 数据湖探索 DLI

导入数据 - 数据湖探索 DLI

使用CDM迁移数据至DLI - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

Avro Format - 数据湖探索 DLI

Avro Format - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

构造请求 - 数据湖探索 DLI

典型场景示例：迁移Kafka数据至DLI - 数据湖探索 DLI

概述 - 数据湖探索 DLI

MySql CDC - 数据湖探索 DLI

数据湖探索简介 - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

Elasticsearch - 数据湖探索 DLI

Upsert Kafka结果表 - 数据湖探索 DLI

查询队列详情 - 数据湖探索 DLI

Upsert Kafka源表 - 数据湖探索 DLI

创建队列 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线