搜索_华为云

Hudi表初始化 - 数据湖探索 DLI
Hudi表初始化 - 数据湖探索 DLI

Hudi表初始化初始化导入存量数据通常由Spark作业来完成，由于初始化数据量通常较大，因此推荐使用API方式给充足资源来完成。对于批量初始化后需要接Flink或Spark流作业实时写入的场景，一般建议通过对上有消息进行过滤，从一个指定的时间范围开始消费来控制数据的重复接入量（

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Bucket调优示例
CREATE VIEW语句 - 数据湖探索 DLI
CREATE VIEW语句 - 数据湖探索 DLI

CREATE VIEW语句语法定义 CREATE VIEW [IF NOT EXISTS] view_name [{columnName [, columnName ]* }] [COMMENT view_comment] AS query_expression 功能描述

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > SQL语法约束与定义 > 语法定义 > DDL语法定义
CREATE VIEW语句 - 数据湖探索 DLI
CREATE VIEW语句 - 数据湖探索 DLI

CREATE VIEW语句语法定义 CREATE VIEW [IF NOT EXISTS] view_name [{columnName [, columnName ]* }] [COMMENT view_comment] AS query_expression 功能描述

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > SQL语法约束与定义 > 语法定义 > DDL语法定义
Spark jar 如何读取上传文件 - 数据湖探索 DLI

Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径，即：SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的，所以不能将Driver中获取到的路径作为参数传给

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
怎样查看DLI的执行SQL记录？ - 数据湖探索 DLI

怎样查看DLI的执行SQL记录？场景概述执行SQL作业过程中需要查看对应的记录。操作步骤登录DLI管理控制台。在左侧导航栏单击“作业管理”>“SQL作业”进入SQL作业管理页面。输入作业ID或者执行的语句可以筛选所要查看的作业。父主题： SQL作业开发类

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
创建数据库 - 数据湖探索 DLI
创建数据库 - 数据湖探索 DLI

创建数据库功能描述创建数据库。语法格式 1 2 3 CREATE [DATABASE | SCHEMA] [IF NOT EXISTS] db_name [COMMENT db_comment] [WITH DBPROPERTIES (property_name=property_value

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据库相关
删除数据库 - 数据湖探索 DLI
删除数据库 - 数据湖探索 DLI

删除数据库功能描述删除数据库。语法格式 1 DROP [DATABASE | SCHEMA] [IF EXISTS] db_name [RESTRICT|CASCADE]; 关键字 IF EXISTS：所需删除的数据库不存在时使用，可避免系统报错。注意事项 DATABASE

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据库相关
在DLI使用Hudi提交Spark Jar作业 - 数据湖探索 DLI

在DLI使用Hudi提交Spark Jar作业提交Spark jar作业的场景需要手动配置由LakeFormation提供元数据服务的Hudi锁实现类，请参照 Hudi锁配置说明。登录DLI管理控制台，选择“作业管理 > Spark作业”，进入到Spark作业的界面。提交Hudi

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
在DLI使用Hudi提交Flink SQL作业 - 数据湖探索 DLI

在DLI使用Hudi提交Flink SQL作业本节操作介绍在DLI使用Hudi提交Flink SQL作业的操作步骤。具体语法说明请参考Flink OpenSource SQL1.15语法概览。进入DLI控制台，随后单击左侧菜单的“作业管理 > Flink作业”，进入Flink

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
在DLI使用Hudi提交Spark SQL作业 - 数据湖探索 DLI

在DLI使用Hudi提交Spark SQL作业登录DLI管理控制台，选择“SQL编辑器”首进入提交SQL作业的界面。提交SQL作业时需要选择支持Hudi的Spark SQL队列。创建一张Hudi表：将如下的建表语句粘贴至DLI SQL编辑器的输入区域，修改 LOCATION，

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
创建OBS表时怎样指定OBS路径 - 数据湖探索 DLI

创建OBS表时怎样指定OBS路径场景概述创建OBS表时，OBS路径须指定到数据库下的具体表层路径。路径格式为：obs://xxx/数据库名/表名。创建OBS表更多语法介绍请参考《数据湖探索Spark SQL语法参考》。正确示例 CREATE TABLE `di_seller_task_activity

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
DLI如何访问OBS桶中的数据 - 数据湖探索 DLI

DLI如何访问OBS桶中的数据创建OBS表。具体语法请参考《数据湖探索SQL语法参考》。添加分区。具体语法请参考《数据湖探索SQL语法参考》。往分区导入OBS桶中的数据。具体语法请参考《数据湖探索SQL语法参考》。查询数据。具体语法请参考《数据湖探索SQL语法参考》

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
为什么SQL作业一直处于“提交中”？ - 数据湖探索 DLI

为什么SQL作业一直处于“提交中”？ SQL作业一直在提交中，有以下几种可能：刚购买DLI队列后，第一次进行SQL作业的提交。需要等待5~10分钟，待后台拉起集群后，即可提交成功。若刚刚对队列进行网段修改，立即进行SQL作业的提交。需要等待5~10分钟，待后台重建集群后，即可提交功

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 DLI Spark-submit简介 DLI Spark-submit是一个用于提交Spark作业到DLI服务端的命令行工具，该工具提供与开源Spark兼容的命令行。准备工作授权。 DLI使用统一身份认证服务（Identity

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？什么是数据倾斜？数据倾斜是在SQL作业执行中常见的问题，当数据分布不均匀的情况下，一部分计算节点处理的数据量远大于其他节点，从而影响整个计算过程的处理效率。例如观察到SQL执行时间较长，进入SparkUI查看对应SQL的执行状态，如图1所示

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

添加Python包后，找不到指定的Python环境添加Python3包后，找不到指定的Python环境。可以通过在conf文件中，设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3，指定计算集群环境为Python3环境。目前，新建集群环境均已默认为

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？数据湖探索（DLI）服务对于PySpark是原生支持的。对于数据分析来说Python是很自然的选择，而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序，通常会把程序打成Jar包并依赖其他一些第三方的Jar，同样的Python

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
为什么Spark jar 作业一直处于“提交中”？ - 数据湖探索 DLI

为什么Spark jar 作业一直处于“提交中”？ Spark jar 作业一直处于“提交中”可能是队列剩余的CU量不足导致作业无法提交。查看队列的的剩余步骤如下：查看队列CU使用量。点击“云监控服务 > 云服务监控 > 数据探索湖 > 队列监控 > 队列CU使用量” 。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Hudi数据表Compaction规范 - 数据湖探索 DLI

Hudi数据表Compaction规范 mor表更新数据以行存log的形式写入，log读取时需要按主键合并，并且是行存的，导致log读取效率比parquet低很多。为了解决log读取的性能问题，Hudi通过compaction将log压缩成parquet文件，大幅提升读取性能。规则

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
Hudi表索引设计规范 - 数据湖探索 DLI

Hudi表索引设计规范规则禁止修改表索引类型。 Hudi表的索引会决定数据存储方式，随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下：布隆索引：Spark引擎独有索引，采用bloomfiter机制，将布隆索引内容写入到Parquet

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范

总条数： 282

上一页
1
...
6
7
8
...
15
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Hudi表初始化 - 数据湖探索 DLI

CREATE VIEW语句 - 数据湖探索 DLI

CREATE VIEW语句 - 数据湖探索 DLI

Spark jar 如何读取上传文件 - 数据湖探索 DLI

怎样查看DLI的执行SQL记录？ - 数据湖探索 DLI

创建数据库 - 数据湖探索 DLI

删除数据库 - 数据湖探索 DLI

在DLI使用Hudi提交Spark Jar作业 - 数据湖探索 DLI

在DLI使用Hudi提交Flink SQL作业 - 数据湖探索 DLI

在DLI使用Hudi提交Spark SQL作业 - 数据湖探索 DLI

创建OBS表时怎样指定OBS路径 - 数据湖探索 DLI

DLI如何访问OBS桶中的数据 - 数据湖探索 DLI

为什么SQL作业一直处于“提交中”？ - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

为什么Spark jar 作业一直处于“提交中”？ - 数据湖探索 DLI

Hudi数据表Compaction规范 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线