搜索_华为云

配置DLI作业桶 - 数据湖探索 DLI

System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统的详细介绍和使用说明，请参见《并行文件系统特性指南》。

帮助中心 > 数据湖探索 DLI > 用户指南 > 准备工作
Hudi表分区设计规范 - 数据湖探索 DLI

段，切记不要采用数据更新时间做分区。当指定Hudi的索引类型为Global索引类型时，Hudi支持跨分区进行数据更新，但Global索引性能较差一般不建议使用。建议事实表采用日期分区表，维度表采用非分区或者大颗粒度的日期分区是否采用分区表要根据表的总数据量、增量和使用方式

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
使用前必读 - 数据湖探索 DLI
使用前必读 - 数据湖探索 DLI

HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎，能够与大数据生态无缝融合，实现海量数据的秒级交互式查询。 DLI+HetuEngine能够快速处理大规模数据集的查询请求，迅速和高效从大数据中提取信息，极大地简化了数据的管理和分析流程，提升大数据环境下的索引和查询性能。 TB级数据秒级响应：

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法
应用场景 - 数据湖探索 DLI
应用场景 - 数据湖探索 DLI

速将海量运营商数据做ETL处理，为分布式批处理计算提供分布式数据集。高吞吐低时延：采用Apache Flink的Dataflow模型，高性能计算资源，从用户自建的Kafka、MRS-Kafka、DMS-Kafka消费数据，单CU每秒吞吐1千~2万条消息。细粒度权限管理：P公司

 帮助中心 > 数据湖探索 DLI > 产品介绍
查询SQL作业日志 - 数据湖探索 DLI

System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统的详细介绍和使用说明，请参见《并行文件系统特性指南》。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
创建DLI表关联DWS - 数据湖探索 DLI

fetchsize 读取数据时，每一批次获取数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 batchsize 写入数据时，每一批次写入数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 truncate

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接DWS表
查询Spark作业日志 - 数据湖探索 DLI

System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统的详细介绍和使用说明，请参见《并行文件系统特性指南》。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
创建DLI表关联RDS - 数据湖探索 DLI

fetchsize 读取数据时，每一批次获取数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 batchsize 写入数据时，每一批次写入数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 truncate

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接RDS表
查询Flink作业日志 - 数据湖探索 DLI

System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统的详细介绍和使用说明，请参见《并行文件系统特性指南》。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
Hudi源表 - 数据湖探索 DLI
Hudi源表 - 数据湖探索 DLI

tion是否正常。因为当长时间不做Compaction时list性能会变差。流读Hudi MOR表时，建议开启log index特性提升Flink流读性能 Hudi的Mor表可以通过log index提升读写性能， Sink和Source表添加属性 'hoodie.log.index

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hudi
Hudi表模型设计规范 - 数据湖探索 DLI

'price') 流式计算采用MOR表。流式计算为低时延的实时计算，需要高性能的流式读写能力，在Hudi表中存在的MOR和COW两种模型中，MOR表的流式读写性能相对较好，因此在流式计算场景下采用MOR表模型。关于MOR表在读写性能的对比关系如下：对比维度 MOR表 COW表流式写高低

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
DLI的数据可存储在哪些地方 - 数据湖探索 DLI

OBS表表示数据存储在用户自己账户的OBS桶中，源数据文件由用户自己管理。 DLI表相较于OBS表提供了更多权限控制和缓存加速的功能，性能相较于外表性能更好，但是会收取存储费用。父主题： DLI产品咨询类

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
Flink作业类 - 数据湖探索 DLI
Flink作业类 - 数据湖探索 DLI

Flink作业类 Flink作业咨询类 Flink SQL作业类 Flink Jar作业类 Flink作业性能调优类

 帮助中心 > 数据湖探索 DLI > 常见问题
Spark SQL常用配置项说明 - 数据湖探索 DLI

ng.enabled true 该配置项用于启用或禁用动态分区修剪。在执行SQL查询时，动态分区修剪可以帮助减少需要扫描的数据量，提高查询性能。配置为true时，代表启用动态分区修剪，SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区，适用于在处理具有大量分区的表时。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
DWS Connector概述 - 数据湖探索 DLI

15版本支持两种DWS Connector方式用于接入GaussDB数据：（推荐使用）DWS服务自研的DWS Connector：更关注于直接与DWS的性能与交互，用户能够更加灵活便捷的与DWS进行数据的读写操作。您可以通过自定义函数（UDF）的方式使用DWS自研的DWS Connector。自定义函数操作请参考自定义函数。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > DWS
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

数据转换为Parquet数据。方案优势提升查询性能如果您在HDFS上拥有基于文本的数据文件或者表，而且正在使用Spark SQL对数据执行查询操作，那么推荐将文本数据文件转换为Parquet数据文件，转换需要时间，但查询性能的提升在某些情况下可能达到约30倍或更高。节省存储空间

 帮助中心 > 数据湖探索 DLI > 最佳实践
离线Compaction配置 - 数据湖探索 DLI

// 执行archivelog合并清理元数据文件关于清理、归档参数的值不宜设置过大，会影响Hudi表的性能，通常建议： hoodie.cleaner.commits.retained = compaction所需要的commit数的2倍 hoodie

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Bucket调优示例
数据保护技术 - 数据湖探索 DLI

在Flink作业可以通过配置表2中的参数来开启SSL传输。打开Task Manager之间data传输通道的SSL，会对性能会有较大影响，建议结合安全和性能综合考虑是否开启。证书文件还需要在作业配置页面的“其他依赖文件”中完成配置。 OBS路径/opt/flink/usrli

帮助中心 > 数据湖探索 DLI > 产品介绍 > 安全
责任共担 - 数据湖探索 DLI
责任共担 - 数据湖探索 DLI

身的安全，涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身，也包括运维运营安全，以及更广义的安全合规遵从。租户：负责云服务内部的安全，安全地使用云。华为云租户的安全责任在于对使用的IaaS、

帮助中心 > 数据湖探索 DLI > 产品介绍 > 安全
数据湖探索简介 - 数据湖探索 DLI

Spark是用于大规模数据处理的统一分析引擎，聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造，不仅兼容Apache Spark生态和接口，性能较开源提升了2.5倍，在小时级即可实现EB级数据查询分析。 Flink是一款分布式的计算引擎，可以用来做批

 帮助中心 > 数据湖探索 DLI > 产品介绍

总条数： 104

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置DLI作业桶 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

使用前必读 - 数据湖探索 DLI

应用场景 - 数据湖探索 DLI

查询SQL作业日志 - 数据湖探索 DLI

创建DLI表关联DWS - 数据湖探索 DLI

查询Spark作业日志 - 数据湖探索 DLI

创建DLI表关联RDS - 数据湖探索 DLI

查询Flink作业日志 - 数据湖探索 DLI

Hudi源表 - 数据湖探索 DLI

Hudi表模型设计规范 - 数据湖探索 DLI

DLI的数据可存储在哪些地方 - 数据湖探索 DLI

Flink作业类 - 数据湖探索 DLI

Spark SQL常用配置项说明 - 数据湖探索 DLI

DWS Connector概述 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

离线Compaction配置 - 数据湖探索 DLI

数据保护技术 - 数据湖探索 DLI

责任共担 - 数据湖探索 DLI

数据湖探索简介 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线