搜索_华为云

Spark开源命令支持说明 - 数据湖探索 DLI

Spark开源命令支持说明本章节介绍了目前DLI对开源的Spark SQL语法的支持情况。详细的语法、参数说明，示例等信息请参考Spark官方文档。表1 DLI Spark开源命令支持说明功能描述语法示例 DLI Spark 2.4.5 DLI Spark 3.3.1 创建数据库

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
实时任务接入 - 数据湖探索 DLI

实时任务接入实时作业一般由Flink Sql或Sparkstreaming来完成，流式实时任务通常配置同步生成compaction计划，异步执行计划。 Flink SQL作业中sink端Hudi表相关配置如下： create table hudi_sink_table ( //

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Bucket调优示例
设置普通队列的弹性扩缩容定时任务 - 数据湖探索 DLI

后继续尝试进行缩容，直至下一个定时任务开始。当一个定时任务没有扩容或者缩容到目标CU值时，系统会在约15分钟后再次触发扩缩计划，直到下一个定时任务开始。创建弹性扩缩容定时任务如果只设定扩容或者缩容，只需创建一个弹性扩缩容定时任务。设定“任务名称”、“最终CUs”和“执行时间”即可，具体请参考表1。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列 > 管理队列
创建弹性资源池并添加队列 - 数据湖探索 DLI

示例：弹性资源池规格为192CUs，资源池中的队列执行作业占用了68CUs，计划缩容至64CUs。执行缩容任务时，系统判断剩余124CUs，按64CUs的缩容步长执行缩容任务，剩余60CUs资源无法继续缩容，因此弹性资源池执行缩容任务后规格为128CUs。创建弹性资源池在左侧导航栏单击“资源管理 > 弹性资源池”，可进入弹性资源池管理页面。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列
流生态作业开发指引 - 数据湖探索 DLI

流生态系统基于Flink和Spark双引擎，完全兼容Flink/Storm/Spark开源社区版本接口，并且在此基础上做了特性增强和性能提升，为用户提供易用、低时延、高吞吐的数据湖探索。数据湖探索的流生态开发包括云服务生态、开源生态和自拓展生态：云服务生态 DLI服务在Stream SQL中支

 帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南
Spark异步任务执行表compaction参数设置规范 - 数据湖探索 DLI

Spark异步任务执行表compaction参数设置规范写作业未停止情况下，禁止手动执行run schedule命令生成compaction计划。错误示例： run schedule on dsrTable 如果还有别的任务在写这张表，执行该操作会导致数据丢失。执行run

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Spark on Hudi开发规范
Flink Opensource SQL Elasticsearch结果表failure-handler参数填写retry_rejected导致提交失败 - 数据湖探索 DLI

SQL Elasticsearch结果表failure-handler参数填写retry_rejected导致提交失败问题根因该问题属于开源设计缺陷。解决措施您可以尝试将retry_rejected修改为retry-rejected。父主题： Flink SQL作业类

 帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink SQL作业类
Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

错误，通常是由于作业的资源配置不足、数据倾斜、网络问题或任务过多导致的。解决方案：设置并发数：通过设置合适的并发数，可以启动多任务并行运行，从而提高作业的处理能力。例如访问DWS大批量数据库数据时设置并发数，启动多任务的方式运行，避免作业运行超时。具体并发设置可以参考对接

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
userDefined结果表 - 数据湖探索 DLI

userDefined结果表功能描述您可通过编写代码实现将DLI处理之后的数据写入到指定的云生态或者开源生态。前提条件已编写代码实现自定义sink类：自定义sink类需要继承Flink开源类：RichSinkFunction，并指定数据类型为：Tuple2<Boolean, Row>。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
查看Flink作业详情 - 数据湖探索 DLI

单击需要查看的作业名称，进入“作业详情”页面。在“任务列表”页签，可以查看任务的节点信息。图2 任务列表查看算子任务列表，具体参见下表：表5 算子任务列表参数参数说明名称算子名称。持续时间算子运行的持续时间。最大并行数算子中并行的Task的个数。任务算子的任务有以下几种：红色数字表示已失败的Task个数。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
userDefined源表 - 数据湖探索 DLI
userDefined源表 - 数据湖探索 DLI

userDefined源表功能描述您可通过编写代码实现从云生态或者开源生态获取数据，再把获取到的数据作为Flink作业的输入数据。前提条件自定义source类需要继承类RichParallelSourceFunction，并指定数据类型为Row。例如自定义类MySource：public

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建源表
DLI datasourceV1表和datasourceV2表 - 数据湖探索 DLI

DLI datasource v1表 DLI datasource v2表（以下简称V2表）：spark开源的Datasource表，建表/插入/truncate命令使用spark开源的command，表的数据路径为$tablepath/数据文件。图2 DLI datasource

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
Hudi源表 - 数据湖探索 DLI
Hudi源表 - 数据湖探索 DLI

Hudi源表功能描述 Flink SQL读取Hudi表数据。更多具体使用可参考开源社区文档：Hudi。注意事项建议Hudi作为Source表时设置限流 Hudi表作为Source表时，为防止数据上限超过流量峰值导致作业出现异常，建议设置限流（read.rate.limit），限流上限应该为业务上线压测的峰值。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hudi
JSON Format - 数据湖探索 DLI
JSON Format - 数据湖探索 DLI

Format 能读写 JSON 格式的数据。当前，JSON schema 是从 table schema 中自动推导而得的。更多具体使用可参考开源社区文档：JSON Format。支持的Connector Kafka Upsert Kafka Elasticsearch 参数说明表1

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
Hudi 结果表 - 数据湖探索 DLI
Hudi 结果表 - 数据湖探索 DLI

Hudi 结果表功能描述 Flink SQL作业写Hudi表。更多具体使用可参考开源社区文档：Hudi。注意事项推荐使用SparkSQL统一建表表名必须满足Hive格式要求表名必须以字母或下划线开头，不能以数字开头。表名只能包含字母、数字、下划线。表名长度不能超过128个字符。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hudi
Parquet Format - 数据湖探索 DLI
Parquet Format - 数据湖探索 DLI

Parquet Format 功能描述 Apache Parquet格式允许读写 Parquet 数据。更多具体使用可参考开源社区文档：Parquet Format。支持的Connector FileSystem 参数说明表1 参数说明参数是否必选默认值类型描述 format

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
CSV Format - 数据湖探索 DLI
CSV Format - 数据湖探索 DLI

允许我们基于CSV schema 进行解析和生成CSV 数据。目前的CSV schema 是基于table schema 推导出来的。更多具体使用可参考开源社区文档：CSV Format。支持的Connector Kafka Upsert Kafka FileSystem 参数说明表1 参数说明

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
Avro Format - 数据湖探索 DLI
Avro Format - 数据湖探索 DLI

Avro格式允许基于Avro schema 读取和写入Avro 数据。目前，Avro schema 从表schema 推导。更多具体使用可参考开源社区文档：Avro Format。支持的Connector Kafka Upsert Kafka FileSystem 参数说明表1 参数说明

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
Orc Format - 数据湖探索 DLI
Orc Format - 数据湖探索 DLI

Orc Format 功能描述 Apache Orc Format允许读写ORC数据。更多具体使用可参考开源社区文档：Orc Format。支持的Connector FileSystem 参数说明表1 参数说明参数是否必选默认值类型描述 format 是无 String

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
ROLL_BACK - 数据湖探索 DLI
ROLL_BACK - 数据湖探索 DLI

只能依次回滚最新的commit时间戳，可以通过SHOW_TIME_LINE命令检查最新的instant time。系统响应可以检查任务状态是否成功，查看任务结果，查看任务日志确认有无异常。父主题： Hudi CALL COMMAND语法说明

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明

总条数： 513

上一页
1
2
3
4
5
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Spark开源命令支持说明 - 数据湖探索 DLI

实时任务接入 - 数据湖探索 DLI

设置普通队列的弹性扩缩容定时任务 - 数据湖探索 DLI

创建弹性资源池并添加队列 - 数据湖探索 DLI

流生态作业开发指引 - 数据湖探索 DLI

Spark异步任务执行表compaction参数设置规范 - 数据湖探索 DLI

Flink Opensource SQL Elasticsearch结果表failure-handler参数填写retry_rejected导致提交失败 - 数据湖探索 DLI

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

userDefined结果表 - 数据湖探索 DLI

查看Flink作业详情 - 数据湖探索 DLI

userDefined源表 - 数据湖探索 DLI

DLI datasourceV1表和datasourceV2表 - 数据湖探索 DLI

Hudi源表 - 数据湖探索 DLI

JSON Format - 数据湖探索 DLI

Hudi 结果表 - 数据湖探索 DLI

Parquet Format - 数据湖探索 DLI

CSV Format - 数据湖探索 DLI

Avro Format - 数据湖探索 DLI

Orc Format - 数据湖探索 DLI

ROLL_BACK - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线