搜索_华为云

配置SQL防御规则 - 数据湖探索 DLI

大数据领域的SQL引擎层出不穷，在带给解决方案多样性的同时，也暴露出一定的问题，例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。低质量的SQL会对数据分析平台系统带来不可预料的冲击，影响系统的性能或者平台稳定性。 DLI在Spark SQL引擎中增加SQL防御

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

Spark作业运行大批量数据时上报作业运行超时异常错误当Spark作业运行大批量数据时，如果出现作业运行超时异常错误，通常是由于作业的资源配置不足、数据倾斜、网络问题或任务过多导致的。解决方案：设置并发数：通过设置合适的并发数，可以启动多任务并行运行，从而提高作业的处理能力。例如访问DWS大批量数据库数据时

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
队列相关 - 数据湖探索 DLI
队列相关 - 数据湖探索 DLI

println("defaultQueue is:"+ queue.getQueueName()); } 默认队列允许所有用户使用，DLI会限制用户使用默认队列的次数。查询所有队列 DLI提供查询队列列表接口，您可以使用该接口并选择相应的队列来执行作业。示例代码如下： 1 2 3 4 5 6 7 8 9

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK
更新SQL作业 - 数据湖探索 DLI
更新SQL作业 - 数据湖探索 DLI

异常重启是否从checkpoint恢复。 resume_max_num 否 Integer 异常重试最大次数，单位：次/小时。取值范围：-1或大于0。默认值为“-1”，表示无限次数。 static_estimator_config 否 String 每个算子的流量/命中率配置，json格式的字符串。例如：

帮助中心 > 数据湖探索 DLI > API参考 > Flink作业相关API
levenshtein - 数据湖探索 DLI
levenshtein - 数据湖探索 DLI

tten','sitting') =3。 Levenshtein距离，是编辑距离的一种。指两个字串之间，由一个转成另一个所需的最少编辑操作次数。命令格式 levenshtein(string A, string B) 参数说明表1 参数说明参数是否必选参数类型说明 A、B

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 字符串函数
自动续费 - 数据湖探索 DLI
自动续费 - 数据湖探索 DLI

开通自动续费”。批量资源开通自动续费：选择需要开通自动续费的资源，单击列表左上角的“更多 > 开通自动续费”。选择续费时长，并根据需要设置自动续费次数，单击“开通”。图3 开通自动续费父主题：续费

 帮助中心 > 数据湖探索 DLI > 计费说明 > 续费
如何合并小文件 - 数据湖探索 DLI

如何合并小文件使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。推荐使用临时表进行数据中转自读自写在突发异常场景下存在数据丢失的风险执行SQL： INSERT OVERWRITE TABLE tablename select

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

时产生的请求费用。流量费用：用户使用自定义域名通过公网访问OBS时产生的流量费用。实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关，请根据自己的业务进行预估。 DLI 在创建SQL作业前需购买队列，使用DLI的队列资源时，按照队列CU时进行计费。如购买

 帮助中心 > 数据湖探索 DLI > 最佳实践
instr1 - 数据湖探索 DLI
instr1 - 数据湖探索 DLI

1中的位置。相似函数：instr，instr函数用于返回substr在str中最早出现的下标。但是instr不支持指定起始搜索位置和匹配次数。命令格式 instr1(string <str1>, string <str2>[, bigint <start_position>[

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 字符串函数
查看Flink作业详情 - 数据湖探索 DLI

开启或关闭。 SMN主题作业配置的SMN主题名称。当作业勾选了“作业异常告警”参数时显示。异常自动重启开启或关闭。异常重试最大次数异常重试最大次数为无限时显示为“无限”，其余为设置的具体值。从Checkpoint恢复开启或关闭。 ID 作业ID。保存点路径保存点的OBS存储路径。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

是否通过Spark作业访问元数据。具体请参考《数据湖探索开发指南》是否重试作业失败后是否进行重试。选择“是”需要配置以下参数： “最大重试次数”：设置作业失败重试次数，最大值为“100”。高级配置暂不配置现在配置：包括以下两项参数选择依赖资源：具体参数请参考表3。计算资源规格：具体参数请参考表4。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
instr - 数据湖探索 DLI
instr - 数据湖探索 DLI

1开始。相似函数：instr1，instr1函数用于计算子串str2在字符串str1中的位置，instr1函数支持指定起始搜索位置和匹配次数。命令格式 instr(string <str>, string <substr>) 参数说明表1 参数说明参数是否必选参数类型

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 字符串函数
更新Flink Jar作业 - 数据湖探索 DLI

异常重启是否从checkpoint恢复。 resume_max_num 否 Integer 异常重试最大次数，单位：次/小时。取值范围：-1或大于0。默认值为“-1”，表示无限次数。 checkpoint_path 否 String 用户Jar中checkpoint的储存地址，不同作业路径需要保持不同。

帮助中心 > 数据湖探索 DLI > API参考 > Flink作业相关API
创建Flink OpenSource SQL作业 - 数据湖探索 DLI

设置是否启动异常自动重启功能，当作业异常时将自动重启并恢复作业。勾选后需配置下列参数： “异常重试最大次数”：配置异常重试最大次数。单位为“次/小时”。无限：无限次重试。有限：自定义重试次数。 “从Checkpoint恢复”：需要同时勾选“开启Checkpoint”才可配置该参数。空闲状态保留时长

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业
Flink作业常用操作 - 数据湖探索 DLI

设置是否启动异常自动重启功能，当作业异常时将自动重启并恢复作业。勾选后需配置下列参数： “异常重试最大次数”：配置异常重试最大次数。单位为“次/小时”。无限：无限次重试。有限：自定义重试次数。 “从Checkpoint恢复”：从已保存的checkpoint恢复作业。说明： Flink

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
regexp - 数据湖探索 DLI
regexp - 数据湖探索 DLI

BIGINT BIGINT类型常量。搜索的开始位置。不指定时默认值为1。 occurrence 否 BIGINT BIGINT类型常量。指定匹配次数，不指定时默认值为1，表示搜索第一次出现的位置。 return_option 否 BIGINT BIGINT类型常量。指定返回的位置。值为

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 字符串函数
DLI支持的Prometheus基础监控指标 - 数据湖探索 DLI

JVM_GarbageCollector_ConcurrentMarkSweep_Count JobManager CMS垃圾回收器的回收次数 flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用AOM监控DLI服务
Hudi表分区设计规范 - 数据湖探索 DLI

维度表：总量相对小，增量小，多以更新操作为主，数据读取会是全表读取，或者按照对应业务ID过滤。基于以上考虑，维度表采用天分区会导致文件数过多，而且是全表读取，会导致所需要的文件读取Task过多，采用大颗粒度的日期分区，例如年分区，可以有效降低分区个数和文件数量；对于增量不是很大的维度表，也可以采用非分区

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
Hudi Archive操作说明 - 数据湖探索 DLI

${操作状态}，比如20240622143023546.deltacommit.request）。对Hudi表进行的每次操作都会产生元数据文件，而元数据文件过多会导致性能问题，所以元数据文件数量最好控制在1000以内。如何执行Archive 写完数据后archive Spark SQL（set设置如下参数，写数据时触发）

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
Hudi数据表Archive规范 - 数据湖探索 DLI

commits设置的阈值。如果是Flink写hudi至少提交的checkpoint要超过这个阈值；如果是Spark写hudi，写Hudi的次数要超过这个阈值。 Hudi表做过Clean，如果没有做过Clean就不会执行Archive。建议 Archive作业每天至少执行一次，可以2~4小时执行一次。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范

总条数： 76

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置SQL防御规则 - 数据湖探索 DLI

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

队列相关 - 数据湖探索 DLI

更新SQL作业 - 数据湖探索 DLI

levenshtein - 数据湖探索 DLI

自动续费 - 数据湖探索 DLI

如何合并小文件 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

instr1 - 数据湖探索 DLI

查看Flink作业详情 - 数据湖探索 DLI

创建Spark作业 - 数据湖探索 DLI

instr - 数据湖探索 DLI

更新Flink Jar作业 - 数据湖探索 DLI

创建Flink OpenSource SQL作业 - 数据湖探索 DLI

Flink作业常用操作 - 数据湖探索 DLI

regexp - 数据湖探索 DLI

DLI支持的Prometheus基础监控指标 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

Hudi Archive操作说明 - 数据湖探索 DLI

Hudi数据表Archive规范 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线