搜索_华为云

如何合并小文件 - 数据湖探索 DLI

如何合并小文件使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。推荐使用临时表进行数据中转自读自写在突发异常场景下存在数据丢失的风险执行SQL： INSERT OVERWRITE TABLE tablename select

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
对象存储OBS结果表 - 数据湖探索 DLI

对象存储OBS结果表功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 - 数据湖探索 DLI

string) stored as parquet location 'obs://obs-sink/car_infos'; 解决方案在DLI创建Flink结果表到OBS的作业时，如上述举例中的car_infos_sink表，是否开启了Checkpoint。如果未开启则

 帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink SQL作业类
DLI的数据可存储在哪些地方 - 数据湖探索 DLI

rquet格式存储。存储成本较高。跨源作业可将数据存储在对应的服务中，目前支持CloudTable，CSS，DCS，DDS，DWS，MRS，RDS等。 DLI表与OBS表有什么区别？ DLI表表示数据存储在本服务内部，用户不感知数据存储路径。 OBS表表示数据存储在用户自己账户

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
Flink Jar作业是否支持上传配置文件，要如何操作？ - 数据湖探索 DLI

15版本的Jar作业开发指导请参考Flink Jar写入数据到OBS开发指南。配置文件使用方法方案一：直接在main函数里面加载文件内容到内存，然后广播到各个taskmanager，这种方式适合那种需要提前加载的少量变量。方案二：在open里面初始化算子的时候加载文件，可以使用相对路径/绝对路径的方式

 帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
BI工具连接DLI方案概述 - 数据湖探索 DLI

BI工具连接DLI方案概述 BI工具是数据分析的强大助手，提供数据可视化、报表生成和仪表板创建等功能。 DLI服务通过对数据的融合分析处理，可以为BI工具提供标准的、有效的高质量数据，供给后续的数据统计分析使用。通过连接到DLI，BI工具可以更加灵活的使用DLI访问和分析数据，帮助企业快速做出基于数据的决策。

帮助中心 > 数据湖探索 DLI > 最佳实践 > 使用BI工具连接DLI分析数据
故障处理 - 数据湖探索 DLI
故障处理 - 数据湖探索 DLI

ed character”问题。问题将代码直接复制到py文件中后，'\'后出现“unexpected character”问题。解决方案将'\'后面的缩进或是空格全部删除。父主题：对接Redis

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Redis
Spark 3.3.1版本说明 - 数据湖探索 DLI

committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的稳定性，当shuffle文件不需要时清理Executor。支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的稳定性，当shuffle文件不需要时清理Executor。支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导

 帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
Spark 2.4.5版本说明 - 数据湖探索 DLI

5。表1 Spark 2.4.5版本优势特性说明支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。参考如何合并小文件完成合并小文件。支持修改非分区表或分区表的列注释修改非分区表或分区表的列注释。

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的稳定性，当shuffle文件不需要时清理Executor。支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导

 帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
SQL作业运行慢如何定位 - 数据湖探索 DLI

GC”关键字，查看日志中是否有时间连续，并且频繁出现“Full GC”的日志信息。图5 Full GC日志 FullGC问题原因定位和解决：原因1 小文件过多：当一个表中的小文件过多时，可能会造成Driver内存FullGC。登录DLI控制台，选择SQL编辑器，在SQL编辑器页面选择问题作业的队列和数据库。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
最新动态 - 数据湖探索 DLI
最新动态 - 数据湖探索 DLI

用户可以通过DLI内置的TPC-H测试套件进行简单高效的交互式查询，无需用户上传数据，即可以体验DLI的核心功能。商用 TPC-H使用指导 2 支持存储量套餐包 DLI增加存储量套餐包，降低数据存储在DLI中的费用。商用产品价格详情 3 支持计算队列定时扩缩容 DLI提供了队列规格变更定时任务功能。用户可以根

 帮助中心 > 数据湖探索 DLI > 最新动态
Hudi常见配置参数 - 数据湖探索 DLI

置为0，会关闭此功能。由于批处理中分区中插入记录的数量众多，总会出现小文件。Hudi提供了一个选项，可以通过将对该分区中的插入作为对现有小文件的更新来解决小文件的问题。此处的大小是被视为“小文件大小”的最小文件大小。 104857600 byte hoodie.copyonwrite

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考
DLI Delta常见问题 - 数据湖探索 DLI

pruning predicate on partitioned table `777dd`.`test_delta_parts1` 解决方案：在console页面设置中添加参数spark.sql.forcePartitionPredicatesOnPartitionedTable

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考
Flink 1.12版本说明 - 数据湖探索 DLI

CDC源表、Postgres CDC源表、Redis源表、Upsert Kafka源表、Hbase源表。 Flink 1.12新增支持小文件合并功能。 Flink 1.12新增支持Redis维表、RDS维表。父主题：版本支持公告

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
与其他云服务的关系 - 数据湖探索 DLI

与对象存储服务（OBS）的关系对象存储服务（Object Storage Service）作为DLI的数据来源及数据存储，与DLI配合一起使用，关系有如下四种。数据来源：使用DLI服务提供API，将OBS对应路径的数据导入到DLI。具体API请参考《导入数据》。存储数据：

帮助中心 > 数据湖探索 DLI > 产品介绍
Hudi Clustering操作说明 - 数据湖探索 DLI

为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”，以强制新数据写入新的文件组，或设置为更高的值以确保新数据被“填充”到现有小的文件组中，直到达到指定大小为止，但其会增加摄取延迟。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
SQL作业开发类 - 数据湖探索 DLI

SQL作业开发类 SQL作业使用咨询如何合并小文件 DLI如何访问OBS桶中的数据创建OBS表时怎样指定OBS路径关联OBS桶中嵌套的JSON格式数据如何创建表 count函数如何进行聚合怎样将一个区域中的DLI表数据同步到另一个区域中？ SQL作业如何指定表的部分字段进行表数据的插入

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类
DLI Delta表概述 - 数据湖探索 DLI

DLI Delta表概述 Delta表是一种基于Delta Lake技术实现的数据存储解决方案，它使用基于文件的事务日志扩展了 Parquet 数据文件，可以处理 ACID 事务和可缩放的元数据。 Delta Lake与Apache Spark API完全兼容，并且其设计能够与结

 帮助中心 > 数据湖探索 DLI > Delta SQL语法参考

总条数： 469

上一页
1
2
3
4
5
...
24
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何合并小文件 - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 - 数据湖探索 DLI

DLI的数据可存储在哪些地方 - 数据湖探索 DLI

Flink Jar作业是否支持上传配置文件，要如何操作？ - 数据湖探索 DLI

BI工具连接DLI方案概述 - 数据湖探索 DLI

故障处理 - 数据湖探索 DLI

Spark 3.3.1版本说明 - 数据湖探索 DLI

DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

Spark 2.4.5版本说明 - 数据湖探索 DLI

DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

SQL作业运行慢如何定位 - 数据湖探索 DLI

最新动态 - 数据湖探索 DLI

Hudi常见配置参数 - 数据湖探索 DLI

DLI Delta常见问题 - 数据湖探索 DLI

Flink 1.12版本说明 - 数据湖探索 DLI

与其他云服务的关系 - 数据湖探索 DLI

Hudi Clustering操作说明 - 数据湖探索 DLI

SQL作业开发类 - 数据湖探索 DLI

DLI Delta表概述 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线