搜索_华为云

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？数据湖探索（DLI）服务对于PySpark是原生支持的。对于数据分析来说Python是很自然的选择，而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序，通常会把程序打成Jar包并依赖其他一些第三方的Jar，同样的Py

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
创建Hbase维表 - 数据湖探索 DLI
创建Hbase维表 - 数据湖探索 DLI

创建Hbase维表功能描述创建Hbase维表用于与输入流连接。前提条件该场景作业需要运行在DLI的独享队列上，因此要与HBase建立增强型跨源连接，且用户可以根据实际所需设置相应安全组规则。如何建立增强型跨源连接，请参考《数据湖探索用户指南》中增强型跨源连接章节。如何

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建维表
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

scala样例代码开发说明支持对接CloudTable的OpenTSDB和MRS的OpenTSDB。前提条件在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接OpenTSDB
userDefined结果表 - 数据湖探索 DLI

userDefined结果表功能描述您可通过编写代码实现将DLI处理之后的数据写入到指定的云生态或者开源生态。前提条件已编写代码实现自定义sink类：自定义sink类需要继承Flink开源类：RichSinkFunction，并指定数据类型为：Tuple2<Boolean

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
Hbase结果表 - 数据湖探索 DLI
Hbase结果表 - 数据湖探索 DLI

Hbase结果表功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠，性能卓越、可伸缩、面向列的分布式云存储系统，适用于海量数据存储以及分布式计算的场景，用户可以利用HBase搭建起TB至PB级数据规模的存储系统，对数据轻松进行过滤分析，毫秒级得到响应，

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

Hbase源表功能描述创建source流从HBase中获取数据，作为作业的输入数据。HBase是一个稳定可靠，性能卓越、可伸缩、面向列的分布式云存储系统，适用于海量数据存储以及分布式计算的场景，用户可以利用HBase搭建起TB至PB级数据规模的存储系统，对数据轻松进行过滤分析

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建源表
弹性资源池CU设置 - 数据湖探索 DLI

弹性资源池CU设置 CU设置主要是为了控制弹性资源池扩缩容的最大最小CU范围，避免无限制的资源扩容风险。例如，当前弹性资源池CU设置的最大CU为256CU，并且该弹性资源池添加了2个队列，2个队列扩缩容策略最小CU数为64CU，这时如果该弹性资源池再添加一个队列并且该队列最小C

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列 > 管理弹性资源池
Hudi表分区设计规范 - 数据湖探索 DLI

Hudi表分区设计规范规则分区键不可以被更新： Hudi具有主键唯一性机制，但在分区表的场景下通常只能保证分区内主键唯一，因此如果分区键的值发生变更后，会导致相同主键的行记录出现多条的情况。在以日期分区的场景，可采用数据的创建时间为分区字段，切记不要采用数据更新时间做分区。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
CREATE TABLE - 数据湖探索 DLI
CREATE TABLE - 数据湖探索 DLI

CREATE TABLE 命令功能 CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。在使用由DLI提供的元数据服务时仅可创建外表，即需要通过LOCATION指定表路径。命令格式 CREATE TABLE [ IF NOT EXISTS] [database_name

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DDL语法说明
ClickHouse结果表 - 数据湖探索 DLI

ClickHouse结果表功能描述 DLI支持将Flink作业数据输出到ClickHouse数据库中。ClickHouse是面向联机分析处理的列式数据库，支持SQL查询，且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异，比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
功能总览 - 数据湖探索 DLI
功能总览 - 数据湖探索 DLI

功能总览功能总览全部数据湖探索权限管理弹性资源池 DLI元数据 DLI SQL作业 DLI Spark作业 DLI Flink作业跨源连接 DLI自定义委托自定义镜像 OBS 2.0支持数据湖探索数据湖探索（Data Lake Insight，以下简称DLI）是完全兼容Apache

帮助中心 > 数据湖探索 DLI > 功能总览
创建DLI表关联CSS - 数据湖探索 DLI

创建DLI表关联CSS 功能描述使用CREATE TABLE命令创建DLI表并关联CSS上已有的表。 Spark跨源开发场景中直接配置跨源认证信息存在密码泄露的风险，优先推荐您使用DLI提供的跨源认证方式。跨源认证简介及操作方法请参考跨源认证简介。前提条件创建DLI表关联

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接CSS表
SQL作业运行慢如何定位 - 数据湖探索 DLI

SQL作业运行慢如何定位作业运行慢可以通过以下步骤进行排查处理。可能原因1：FullGC原因导致作业运行慢判断当前作业运行慢是否是FullGC导致：登录DLI控制台，单击“作业管理 > SQL作业”。在SQL作业页面，在对应作业的“操作”列，单击“更多 > 归档日志”。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
DIS源表 - 数据湖探索 DLI
DIS源表 - 数据湖探索 DLI

DIS源表功能描述创建source流从数据接入服务（DIS）获取数据。用户数据从DIS接入，Flink作业从DIS的通道读取数据，作为作业的输入数据。Flink作业可通过DIS的source源将数据从生产者快速移出，进行持续处理，适用于将云服务外数据导入云服务后进行过滤、实时分析、监控报告和转储等场景。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建源表
分组聚合 - 数据湖探索 DLI
分组聚合 - 数据湖探索 DLI

分组聚合聚合函数把多行输入数据计算为一行结果。例如，有一些聚合函数可以计算一组行的 “COUNT”、“SUM”、“AVG”（平均）、“MAX”（最大）和 “MIN”（最小）。对于流式查询，用于计算查询结果的状态可能无限膨胀。状态的大小大多数情况下取决于去重行的数量和分组持续的时间，持续时间较短的

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML
Spark SQL常用配置项说明 - 数据湖探索 DLI

Spark SQL常用配置项说明本章节为您介绍DLI 批作业SQL语法的常用配置项。表1 常用配置项名称默认值描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负，则没有限制。 spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
MySQL CDC源表 - 数据湖探索 DLI
MySQL CDC源表 - 数据湖探索 DLI

MySQL CDC源表功能描述 MySQL的CDC源表，即MySQL的流式源表，会先读取数据库的历史全量数据，并平滑切换到Binlog读取上，保证数据的完整读取。前提条件 MySQL CDC要求MySQL版本为5.7或8.0.x。该场景作业需要DLI与MySQL建立增强型跨

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
添加分区（只支持OBS表） - 数据湖探索 DLI

添加分区（只支持OBS表）功能描述创建OBS分区表成功后，OBS表实际还没有生成分区信息。生成分区信息主要有以下两种场景：给OBS分区表插入对应的分区数据，数据插入成功后OBS表才会生成分区元数据信息，后续则可以根据对应分区列进行查询等操作。手工拷贝分区目录和数据到OBS

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据应用场景 Parquet是面向分析型业务的列式存储格式，这种格式可以加快查询速度，查询Parquet格式数据时，只检查所需要的列并对它们的值执行计算，也就是说，只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项

 帮助中心 > 数据湖探索 DLI > 最佳实践
Elasticsearch结果表 - 数据湖探索 DLI

Elasticsearch结果表功能描述 DLI将Flink作业的输出数据输出到云搜索服务CSS的Elasticsearch中。Elasticsearch是基于Lucene的当前流行的企业级搜索服务器，具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表

总条数： 670

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

创建Hbase维表 - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

userDefined结果表 - 数据湖探索 DLI

Hbase结果表 - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

弹性资源池CU设置 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

CREATE TABLE - 数据湖探索 DLI

ClickHouse结果表 - 数据湖探索 DLI

功能总览 - 数据湖探索 DLI

创建DLI表关联CSS - 数据湖探索 DLI

SQL作业运行慢如何定位 - 数据湖探索 DLI

DIS源表 - 数据湖探索 DLI

分组聚合 - 数据湖探索 DLI

Spark SQL常用配置项说明 - 数据湖探索 DLI

MySQL CDC源表 - 数据湖探索 DLI

添加分区（只支持OBS表） - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

Elasticsearch结果表 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线