搜索_华为云

产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

减少迁移工作量。采用批流融合高扩展性框架，为TB~EB级数据提供了更实时高效的多样性算力，可支撑更丰富的大数据处理需求。产品内核及架构深度优化，综合性能是传统MapReduce模型的百倍以上，SLA保障99.95%可用性。图1 DLI Serverless架构与传统自建Had

帮助中心 > 数据湖探索 DLI > 产品介绍
已购买套餐包，为什么仍然产生按需计费？ - 数据湖探索 DLI

已购买套餐包，为什么仍然产生按需计费？问题描述已经购买了DLI的套餐包，使用过程中仍然产生了按需费用。排查思路 DLI提供优惠的资源套餐包，购买套餐包后，资源按照套餐包类型计费。套餐包是用户预先购买的资源使用量配额，超出当前套餐包的额度，将自动转为按需收费。建议您按以下顺序排查原因。

帮助中心 > 数据湖探索 DLI > 计费说明 > 计费相关问题
Spark 3.1.1版本说明 - 数据湖探索 DLI

【SPARK-32302】: 部分谓词下推优化。【SPARK-30648】：支持JSON datasource表谓词下推。【SPARK-32346】：支持avro datasource表谓词下推。【SPARK-32461】：shuffle hash join优化。【SPARK-32272】：添加SQL标准命令SET

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
Spark 2.4.5版本说明 - 数据湖探索 DLI

支持动态加载UDF（公测）无需重启队列UDF即可生效。 Spark UI支持火焰图 Spark UI支持绘制火焰图。优化SQL作业NOT IN语句查询性能 NOT IN语句查询性能提升。优化Multi-INSERT语句查询性能 Multi-INSERT语句查询性能提升。父主题：版本支持公告

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
Hudi表索引设计规范 - 数据湖探索 DLI

态索引，按照规范去优化对应的配置参数即可。建议基于Flink的流式写入的表，在数据量超过2亿条记录，采用Bucket索引，2亿以内可以采用Flink状态索引。参照Flink状态索引的特点，Hudi表超过一定数据量后，Flink作业状态后端压力很大，需要优化状态后端参数才能维

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
使用前必读 - 数据湖探索 DLI
使用前必读 - 数据湖探索 DLI

大数据中提取信息，极大地简化了数据的管理和分析流程，提升大数据环境下的索引和查询性能。 TB级数据秒级响应： HetuEngine通过自动优化资源与负载的配比，能够对TB级数据实现秒级响应，极大提升了数据查询的效率。 Serverless资源开箱即用： Serverless服务模

 帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法
DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

支持动态加载UDF（公测）无需重启队列UDF即可生效。 Spark UI支持火焰图 Spark UI支持绘制火焰图。优化SQL作业NOT IN语句查询性能 NOT IN语句查询性能提升。优化Multi-INSERT语句查询性能 Multi-INSERT语句查询性能提升。切换至新版本对DLI资源价格是否有影响？

帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

支持动态加载UDF（公测）无需重启队列UDF即可生效。 Spark UI支持火焰图 Spark UI支持绘制火焰图。优化SQL作业NOT IN语句查询性能 NOT IN语句查询性能提升。优化Multi-INSERT语句查询性能 Multi-INSERT语句查询性能提升。切换至新版本对DLI资源价格是否有影响？

帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
配置DLI作业桶 - 数据湖探索 DLI

大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统

 帮助中心 > 数据湖探索 DLI > 用户指南 > 准备工作
怎样查看DLI队列负载？ - 数据湖探索 DLI

怎样查看DLI队列负载？场景概述如果需要确认DLI队列的运行状态，决定是否运行更多的作业时需要查看队列负载。操作步骤在控制台搜索“云监控服务 CES”。图1 搜索CES 进入CES后，在页面左侧“云服务监控”列表中，单击“数据湖探索”。图2 云服务监控选择队列进行查看。

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI弹性资源池和队列类
从PostgreSQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

为集群“公网访问地址”或“公网访问域名”，如果通过内网地址连接，请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接，请指定为“弹性负载均衡地址”。 dbadmin：创建集群时设置的默认管理员用户名。 -W：默认管理员用户的密码。在命令行窗口输入以下命令创建数据库“testdwsdb”。

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink OpenSource SQL作业开发
DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

身。具体请参考《数据湖探索用户指南》。 MRS服务Spark组件的是建立在客户的购买MRS服务所分配的虚机上，用户可以根据实际需求调整及优化Spark服务，支持各种接口调用。 MRS的这种模式提供了更高的自由度和定制性，适合有大数据处理经验的用户使用。具体请参考《MapReduce服务开发指南》。

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
设置Flink作业优先级 - 数据湖探索 DLI

设置Flink Jar作业优先级在“优化参数”中配置如下参数，其中x为优先级取值。 flink.dli.job.priority=x 登录DLI管理控制台。单击“作业管理 > Flink作业”。选择待配置的作业，单击操作列下的编辑。在“优化参数”中输入如下语句。先开启动态扩缩容功能，再设置作业优先级。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
查询SQL作业日志 - 数据湖探索 DLI

行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
提交SQL作业（废弃） - 数据湖探索 DLI

partitions（指定Shuffle过程中Partition的个数） dli.sql.cbo.enabled（是否打开CBO优化策略） dli.sql.cbo.joinReorder.enabled（开启CBO优化时，是否允许重新调整join的顺序）响应消息表3 响应参数参数是否必选参数类型说明 is_success

帮助中心 > 数据湖探索 DLI > API参考 > 历史API > SQL作业相关API（废弃）
查询Spark作业日志 - 数据湖探索 DLI

行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
窗口去重 - 数据湖探索 DLI
窗口去重 - 数据湖探索 DLI

窗口Top-N的语法和普通的Top-N相同。除此之外，窗口去重需要 PARTITION BY 子句包含表的 window_start 和 window_end 列。否则优化器无法翻译。 Flink 使用 ROW_NUMBER() 移除重复数据，就像窗口TopN一样。理论上，窗口是一种特殊的窗口 Top-N：N

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
Hudi表分区设计规范 - 数据湖探索 DLI

D进行分区，在大部分数据处理逻辑中针对大维度表，会有一定的业务条件进行过滤来提升处理性能，这类表要结合一定的业务场景来进行优化，无法从单纯的日期分区进行优化。事实表读取方式都会按照时间段切分，近一年、近一个月或者近一天，读取的文件数相对稳定可控，所以事实表优先考虑日期分区表。分

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
Hudi表初始化 - 数据湖探索 DLI
Hudi表初始化 - 数据湖探索 DLI

Hudi表在Hive元数据中，应该会存在1张内部表（手动创建），2张外部表（写入数据后自动创建）。 2张外部表，表名_ro（用户只读合并后的parquet文件，即读优化视图表），_rt（读实时写入的最新版本数据，即实时视图表）。父主题： Bucket调优示例

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Bucket调优示例
Spark SQL常用配置项说明 - 数据湖探索 DLI

点的内存不足，并触发频繁的Full GC。在这种情况下，可以配置该参数为false即禁用动态分区修剪优化，有助于减少内存使用，避免内存溢出和频繁的Full GC。但禁用此优化可能会降低查询性能，禁用后Spark将不会自动修剪掉那些不满足条件的分区。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考

总条数： 84

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

产品优势 - 数据湖探索 DLI

已购买套餐包，为什么仍然产生按需计费？ - 数据湖探索 DLI

Spark 3.1.1版本说明 - 数据湖探索 DLI

Spark 2.4.5版本说明 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

使用前必读 - 数据湖探索 DLI

DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

配置DLI作业桶 - 数据湖探索 DLI

怎样查看DLI队列负载？ - 数据湖探索 DLI

从PostgreSQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

设置Flink作业优先级 - 数据湖探索 DLI

查询SQL作业日志 - 数据湖探索 DLI

提交SQL作业（废弃） - 数据湖探索 DLI

查询Spark作业日志 - 数据湖探索 DLI

窗口去重 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

Hudi表初始化 - 数据湖探索 DLI

Spark SQL常用配置项说明 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线