搜索_华为云

执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

行，即为数据倾斜的情况。图1 数据倾斜样例常见数据倾斜场景 Group By聚合倾斜在执行Group By聚合操作时，如果某些分组键对应的数据量特别大，而其他分组键对应的数据量很小，在聚合过程中，数据量大的分组会占用更多的计算资源和时间，导致处理速度变慢，出现数据倾斜。 JOIN

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
配置多版本过期数据回收站 - 数据湖探索 DLI

配置多版本过期数据回收站功能描述在DLI数据多版本功能开启后，过期的备份数据后续在执行insert overwrite或者truncate语句时会被系统直接清理。OBS并行文件系统可以通过配置回收站加速删除操作过期的备份数据。通过在表属性添加配置“dli.multi.version

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 多版本备份恢复数据
Hudi存储结构 - 数据湖探索 DLI
Hudi存储结构 - 数据湖探索 DLI

Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。在DLI环境，Hudi表的数据文件存储在OBS上，因此可以通过查看OBS文件检查。如下，展示了Hudi 多级分区COW表存储结构的示意。 hudi_table ├── .hoodie // 元数据文件夹 │

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述
数据湖探索 DLI - 数据湖探索 DLI

None 服务介绍数据湖探索 DLI 介绍什么是数据湖探索 02:47 数据湖探索DLI产品介绍功能介绍数据湖探索 DLI 熟悉数据湖探索控制台 03:10 数据湖探索控制台介绍操作指导数据湖探索 DLI 介绍怎样创建提交SQL作业 07:36 数据湖探索SQL作业入门指导

 帮助中心 > 数据湖探索 DLI > 视频帮助
导出查询结果 - 数据湖探索 DLI

参数类型说明 data_path 是 String 导出结果存储的路径（当前仅支持将数据存储在OBS上）。另外，该路径下的文件夹须不存在，如请求样例中的“path”文件夹。 compress 否 String 导出数据的压缩格式，目前支持gzip，bzip2和deflate压缩方式；

帮助中心 > 数据湖探索 DLI > API参考 > SQL作业相关API
查询Delta表历史版本数据 - 数据湖探索 DLI

查询Delta表历史版本数据命令格式查询Delta表历史某一时刻的状态： SELECT * FROM [database_name.]table_name TIMESTAMP AS OF timestamp_expression 查询Delta表某一历史版本的状态： SELECT

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta Time Travel
pyspark样例代码 - 数据湖探索 DLI

ErrorIfExis：如果已经存在数据，则抛出异常。 Overwrite：如果已经存在数据，则覆盖原数据。 Append：如果已经存在数据，则追加保存。 Ignore：如果已经存在数据，则不做操作。这类似于SQL中的“如果不存在则创建表”。读取RDS上的数据 1 2 3 4 5 6 7

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接RDS
Flink作业重启后，如何保证不丢失数据？ - 数据湖探索 DLI

t文件恢复内部状态和消费位点，保证数据不丢失及聚合算子等内部状态的精确一致语义。同时，为了保证数据不重复，建议使用带主键数据库或者文件系统作为目标数据源，否则下游处理业务需要加上去重逻辑（最新成功Checkpoint记录位点到异常时间段内的数据会重复消费）。图1 Flink作业配置参数

 帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业性能调优类
表相关 - 数据湖探索 DLI
表相关 - 数据湖探索 DLI

return print(table) 创建OBS表需要指定OBS路径，且该路径需要提前创建。完整样例代码和依赖包说明请参考：Python SDK概述。删除表 DLI提供删除表的接口。您可以使用该接口删除数据库下的所有表。示例代码如下： 1 2 3 4 5 6 7 8 def

帮助中心 > 数据湖探索 DLI > SDK参考 > Python SDK > SQL作业相关
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

通过SQL API访问数据源插入数据 1 sparkSession.sql("insert into test_hbase values('12345','abc','guiyang',false,null,3,23,2.3,2.34)") 查询数据 1 sparkSession

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
创建表时指定表的生命周期 - 数据湖探索 DLI

指定表的生命周期。DLI会根据每张表的最后修改时间和表的生命周期来判断是否要回收此表。通过设置表的生命周期，可以帮助您更好的管理数目众多的表，自动清理长期不再使用的数据表，简化数据表的回收流程。同时支持数据恢复设置，避免因误操作丢失数据。表的回收规则在创建表时通过TBLPROPERTIES指定表的生命周期。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 表生命周期管理
常用数据源语法兼容性 - 数据湖探索 DLI

常用数据源语法兼容性语法 Hive Hudi 数据库的show schemas Y Y 数据库的create schema Y Y 数据库的alter schema Y N 数据库的drop schema Y Y 表的show tables/show create table/show

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > 附录
使用DEW管理数据源访问凭证 - 数据湖探索 DLI

使用DEW管理数据源访问凭证使用DLI提交作业读写外部数据源数据时，需要妥善保存数据源的访问凭证确保数据源认证的安全性，便于DLI安全访问数据源。数据加密服务（Data Encryption Workshop, DEW）是一个综合的云上数据加密服务，为您解决数据安全、密钥安全、

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据
典型场景示例：迁移Kafka数据至DLI - 数据湖探索 DLI

已提交：拉取已提交的数据。时间范围：拉取时间范围内的数据。是否持久运行用户自定义是否永久运行。当前示例选择为：否。拉取数据超时时间持续拉取数据多长时间超时，单位分钟。当前示例配置为：15。等待时间可选参数，超出等待时间还是无法读取到数据，则不再读取数据，单位秒。当前示例不配置该参数。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
Flink作业常用操作 - 数据湖探索 DLI

业。修改Flink作业名称和描述信息用户可以根据需要修改作业名称和描述。在DLI管理控制台的左侧导航栏中，单击“作业管理”>“Flink作业”，进入Flink作业管理页面。在需要修改名称和描述的作业对应的“操作”列中，单击“更多 > 名称和描述修改”，弹出“属性修改”页面。修改作业名称和描述。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
在DLI使用Hudi提交Flink SQL作业 - 数据湖探索 DLI

这里的sink表通过创建临时表指向Hudi表路径来写入数据，同时在表参数中配置hive_sync相关参数，实时同步元数据至由DLI提供的元数据服务。（具体参数详见Flink参数一节）请将作业中sink表的path参数修改为希望保存hudi表的obs路径。 -- 临时表作为source，通过datagen

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
分区相关 - 数据湖探索 DLI
分区相关 - 数据湖探索 DLI

添加分区（只支持OBS表）重命名分区（只支持OBS表）删除分区指定筛选条件删除分区（只支持OBS表）修改表分区位置（只支持OBS表）更新表分区信息（只支持OBS表） REFRESH TABLE刷新表元数据父主题：表相关

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关
在DLI控制台预览表数据 - 数据湖探索 DLI

在DLI控制台预览表数据 “预览页面”将显示对应表的前10条数据。预览数据步骤预览数据的入口有两个，分别在“数据管理”和“SQL编辑器”页面。在“数据管理”页面预览数据。在管理控制台左侧，单击“数据管理”>“库表管理”。单击需导出数据对应数据库名称，进入该数据库“表管理”页面。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表 > 在DLI控制台管理表资源
图解数据湖探索 - 数据湖探索 DLI

图解数据湖探索

 帮助中心 > 数据湖探索 DLI > 产品介绍
pyspark样例代码 - 数据湖探索 DLI

id、location、city：限定了长度，插入数据时须按长度给定数据值，否则查询时会发生编码格式错误。操作结果；提交Spark作业将写好的python代码文件上传至DLI中。控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。如果

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase

总条数： 1508

上一页
1
...
8
9
10
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

配置多版本过期数据回收站 - 数据湖探索 DLI

Hudi存储结构 - 数据湖探索 DLI

数据湖探索 DLI - 数据湖探索 DLI

导出查询结果 - 数据湖探索 DLI

查询Delta表历史版本数据 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

Flink作业重启后，如何保证不丢失数据？ - 数据湖探索 DLI

表相关 - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

创建表时指定表的生命周期 - 数据湖探索 DLI

常用数据源语法兼容性 - 数据湖探索 DLI

使用DEW管理数据源访问凭证 - 数据湖探索 DLI

典型场景示例：迁移Kafka数据至DLI - 数据湖探索 DLI

Flink作业常用操作 - 数据湖探索 DLI

在DLI使用Hudi提交Flink SQL作业 - 数据湖探索 DLI

分区相关 - 数据湖探索 DLI

在DLI控制台预览表数据 - 数据湖探索 DLI

图解数据湖探索 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线