搜索_华为云

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

partitions参数提高并行度操作场景 Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

是由于作业的资源配置不足、数据倾斜、网络问题或任务过多导致的。解决方案：设置并发数：通过设置合适的并发数，可以启动多任务并行运行，从而提高作业的处理能力。例如访问DWS大批量数据库数据时设置并发数，启动多任务的方式运行，避免作业运行超时。具体并发设置可以参考对接DWS样例

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
运行Spark作业报java.lang.AbstractMethodError - 数据湖探索 DLI

运行Spark作业报java.lang.AbstractMethodError Spark 2.3对内部接口Logging做了行为变更，如果用户代码里直接继承了该Logging，且编译时使用的是低版本的Spark，那么应用程序在Spark 2.3的环境中运行将会报java.lang

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
查看SQL执行计划 - 数据湖探索 DLI

外连接）、排序和聚合等。执行计划可以帮助分析查询的性能，识别可能的性能瓶颈，通过了解查询的执行逻辑，并根据这些信息调整查询或数据库结构，以提高SQL查询效率。本节操作介绍怎样在DLI管理控制台查看SQL执行计划。约束限制仅Spark 3.3.x及以上版本引擎、HetuEng

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
WITH...AS - 数据湖探索 DLI
WITH...AS - 数据湖探索 DLI

WITH...AS 功能描述通过用WITH...AS定义公共表达式（CTE）来简化查询，提高可阅读性和易维护性。语法格式 1 WITH cte_name AS (select_statement) sql_containing_cte_name; 关键字 cte_name：公共表达式的名字，不允许重名。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > SELECT
Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 DLI整理了Spark2.4.x与Spark3.3.x版本在通用队列的差异，便于您了解Spark版本升级后通用队列上运行的作业在适配新版本引擎时的影响。 log4j依赖从1.x版本修改为2.x版本说明： log4j依赖从1

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
产品规格 - 数据湖探索 DLI
产品规格 - 数据湖探索 DLI

1CU包含1CPU和4GB内存。您可以在弹性资源池中创建多个队列，队列之间的计算资源支持共享。通过合理设置队列的计算资源池分配策略，提高计算资源利用率。 DLI弹性资源池之间为物理集群隔离，同一个弹性资源池中的队列之间为逻辑隔离。建议您对测试业务场景和生产业务场景分别创建

 帮助中心 > 数据湖探索 DLI > 产品介绍
OPTIMIZE - 数据湖探索 DLI
OPTIMIZE - 数据湖探索 DLI

OPTIMIZE 命令功能 OPTIMIZE命令用于优化数据在存储中的布局，提高查询速度。注意事项由于Optimize是一项耗时的活动，因此需要根据更好的最终用户查询性能与优化计算时间之间的权衡来确定运行Optimized的频率。分区表优化需要设置参数spark.sql.f

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DML语法说明
产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

分析。SQL语法全兼容标准ANSI SQL 2003。存算分离 DLI解耦计算和存储负载，存算分离架构，存储资源和计算资源按需灵活配置，提高了资源利用率，降低了成本。企业级多租户支持计算资源按租户隔离，数据权限控制到队列、作业，帮助企业实现部门间的数据共享和权限管理。 Serverless

帮助中心 > 数据湖探索 DLI > 产品介绍
Spark 3.3.1版本说明 - 数据湖探索 DLI

Spark查询语句性能提升。元数据访问性能提升提升Spark在处理大数据时的元数据访问性能，提高数据处理流程效率。提升OBS committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
REFRESH TABLE刷新表元数据 - 数据湖探索 DLI

REFRESH TABLE刷新表元数据功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时，缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据作业执行报错，报错信息参考如下： DLI.0002: FileNotFoundException:

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
查询HBase表 - 数据湖探索 DLI
查询HBase表 - 数据湖探索 DLI

查询下压通过hbase进行数据过滤，即HBase Client将过滤条件传给HBase服务端进行处理，HBase服务端只返回用户需要的数据，提高了Spark SQL查询的速度。对于HBase不支持的过滤条件，例如组合Rowkey的查询，直接由Spark SQL进行。支持查询下压的场景

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接HBase表
服务韧性 - 数据湖探索 DLI
服务韧性 - 数据湖探索 DLI

流量限制：DLI通过设置流量控制机制，防止服务过载并保持服务的稳定性。跨AZ容灾：DLI云服务采用跨可用区容灾部署，减少单点故障的风险，提高系统的可用性和弹性。备份恢复：DLI自动化的备份策略和恢复计划，确保在发生故障时可以迅速恢复服务和数据。父主题：安全

 帮助中心 > 数据湖探索 DLI > 产品介绍 > 安全
创建非弹性资源池队列（废弃，不推荐使用） - 数据湖探索 DLI

非弹性资源池模式的队列是DLI的上一代计算资源管理方式，按使用需求购买和释放资源，需要预先估计资源使用需求再进行购买。优先推荐使用弹性资源池队列，提高资源使用的灵活性和资源利用效率。购买弹性资源池并在弹性资源池中添加队列请参考创建弹性资源池并添加队列。用户首次使用子账号创建队列时，需要

 帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列
什么是用户配额？ - 数据湖探索 DLI

保资源合理的分配和使用，避免资源过度集中和资源浪费。如果资源配额限制满足不了用户的使用需求，可以通过工单系统来提交您的申请，并告知您申请提高配额的理由。在通过审理之后，系统会更新您的配额并进行通知。关于配额的具体操作说明，请参见关于配额。父主题： DLI资源配额类

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI资源配额类
DLI“包年/包月”和“按需计费”计费模式队列和“队列CU时套餐包”下线（EOL）公告 - 数据湖探索 DLI

DLI“包年/包月”和“按需计费”计费模式队列和“队列CU时套餐包”下线（EOL）公告公告说明为了更好的实现资源共享，提高计算资源利用率，DLI将“包年/包月”和“按需计费”计费模式队列升级为“弹性资源池队列”。即使用DLI计算资源需先购买弹性资源池，并在弹性资源池中创建队列。

帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
Delta清理和优化 - 数据湖探索 DLI

delta_table0; VACUUM delta_table0 RETAIN 168 HOURS;--单位只支持HOURS 优化Delta表为了提高查询速度，Delta Lake支持优化数据在存储中的布局，这会将许多较小的文件压缩为较大的文件。 optimize delta_table0;

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考
Hudi Clustering操作说明 - 数据湖探索 DLI

Hudi Clustering操作说明什么是Clustering 即数据布局，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。 Clustering架构 Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hu

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
迁移数据场景概述 - 数据湖探索 DLI

数据至DLI，再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源，通过可视化界面对数据源迁移任务进行配置，提高数据迁移和集成的效率。图1 迁移数据至DLI 常见迁移场景与迁移方案指导表1 常见迁移场景与迁移方案指导数据类型迁移工具迁移方案

 帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
在DLI控制台创建数据库和表 - 数据湖探索 DLI

表的列名。列名应至少包含一个字母，并允许下划线（_），但不支持纯数字。可选择“普通列”或“分区列”。“分区列”是分区表专用的，对用户数据进行分区，可提高查询效率。说明：列名不区分大小写，不能相同。 name 数据类型与“列名”对应，表示该列的数据类型。字符串（string）：字符串类型。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表

总条数： 92

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

运行Spark作业报java.lang.AbstractMethodError - 数据湖探索 DLI

查看SQL执行计划 - 数据湖探索 DLI

WITH...AS - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

产品规格 - 数据湖探索 DLI

OPTIMIZE - 数据湖探索 DLI

产品优势 - 数据湖探索 DLI

Spark 3.3.1版本说明 - 数据湖探索 DLI

REFRESH TABLE刷新表元数据 - 数据湖探索 DLI

查询HBase表 - 数据湖探索 DLI

服务韧性 - 数据湖探索 DLI

创建非弹性资源池队列（废弃，不推荐使用） - 数据湖探索 DLI

什么是用户配额？ - 数据湖探索 DLI

DLI“包年/包月”和“按需计费”计费模式队列和“队列CU时套餐包”下线（EOL）公告 - 数据湖探索 DLI

Delta清理和优化 - 数据湖探索 DLI

Hudi Clustering操作说明 - 数据湖探索 DLI

迁移数据场景概述 - 数据湖探索 DLI

在DLI控制台创建数据库和表 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线