搜索_华为云

Hudi常见配置参数 - 数据湖探索 DLI

置为0，会关闭此功能。由于批处理中分区中插入记录的数量众多，总会出现小文件。Hudi提供了一个选项，可以通过将对该分区中的插入作为对现有小文件的更新来解决小文件的问题。此处的大小是被视为“小文件大小”的最小文件大小。 104857600 byte hoodie.copyonwrite

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考
查询Spark作业日志 - 数据湖探索 DLI

Spark日志分割规则：按大小分割：默认情况下，每个日志文件最大为128MB。按时间分割：每过一小时自动创建新的日志文件。前提条件配置前，请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
更新跨源认证（废弃） - 数据湖探索 DLI

用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否

 帮助中心 > 数据湖探索 DLI > API参考 > 历史API > 跨源认证相关API（废弃）
Spark SQL常用配置项说明 - 数据湖探索 DLI

批作业SQL语法的常用配置项。表1 常用配置项名称默认值描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负，则没有限制。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
从PostgreSQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

12版本。场景描述 CDC是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库的增量变动记录，同步到一个或多个数据目的中。CDC在数据同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。本示例通过创建PostgreSQL

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink OpenSource SQL作业开发
查询作业监控信息（废弃） - 数据湖探索 DLI

查询作业监控信息（废弃）功能介绍该API用于查询作业监控信息, 支持同时查询多个作业的监控信息。当前接口已废弃，不推荐使用。调试您可以在API Explorer中调试该接口。 URI URI格式 POST /v1.0/{project_id}/streaming/jobs/metrics

帮助中心 > 数据湖探索 DLI > API参考 > 历史API > Flink作业相关API（废弃）
SQL作业运行报错：DLI.0002 FileNotFoundException - 数据湖探索 DLI

obs://xxx: status [404] 解决方案请排查在同一时间点是否还有另外作业对当前报错作业操作的表信息有删除操作。 DLI不允许同时有多个作业在同一时间点对相同表进行读写操作，否则会造成作业冲突，导致作业运行失败。父主题： SQL作业运维类

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业运维类
JDBC源表 - 数据湖探索 DLI
JDBC源表 - 数据湖探索 DLI

按照如下方式查看taskmanager.out文件中的数据结果：登录DLI管理控制台，选择“作业管理 > Flink作业”。单击对应的Flink作业名称，选择“运行日志”，单击“OBS桶”，根据作业运行的日期，找到对应日志的文件夹。进入对应日期的文件夹后，找到名字中包含“taskmanager”的文件夹进入，下载获取taskmanager

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
Kafka源表 - 数据湖探索 DLI
Kafka源表 - 数据湖探索 DLI

单击对应的Flink作业名称，选择“运行日志”，单击“OBS桶”，根据作业运行的日期，找到对应日志的文件夹。进入对应日期的文件夹后，找到名字中包含“taskmanager”的文件夹进入，下载获取taskmanager.out文件查看结果日志。数据结果参考如下： +I(fz-source-json,0,{}

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
在Spark SQL作业中使用UDF - 数据湖探索 DLI

</dependency> </dependencies> 图5 pom文件中添加配置在工程路径的“src > main > java”文件夹上鼠标右键，选择“New > Package”，新建Package和类文件。图6 新建Package和类文件 Package根据需要定义，本示例定义为：“com

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
查询Flink作业日志 - 数据湖探索 DLI

前提条件配置前，请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
Spark 2.4.5版本说明 - 数据湖探索 DLI

5。表1 Spark 2.4.5版本优势特性说明支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。参考如何合并小文件完成合并小文件。支持修改非分区表或分区表的列注释修改非分区表或分区表的列注释。

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的稳定性，当shuffle文件不需要时清理Executor。支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导

 帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
使用Spark Jar作业读取和查询OBS数据 - 数据湖探索 DLI

单击“上传对象”，将people.json文件上传到OBS桶根目录下。在OBS桶根目录下，单击“新建文件夹”，创建名为“result”的文件夹。单击“result”的文件夹，在“result”下单击“新建文件夹”，创建名为“parquet”的文件夹。步骤3：新建Maven工程，配置pom依赖

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
导入Flink作业 - 数据湖探索 DLI
导入Flink作业 - 数据湖探索 DLI

参数名称是否必选参数类型说明 zip_file 是 String 从OBS上导入的作业zip文件路径，支持填写文件夹，导入文件夹下的所有zip文件。说明：文件夹中只能包含zip文件。 is_cover 否 Boolean 如果导入的作业与服务已有的作业同名，是否覆盖服务中已有的作业。

帮助中心 > 数据湖探索 DLI > API参考 > Flink作业相关API
查询SQL作业日志 - 数据湖探索 DLI

前提条件配置前，请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

file_num 指定目录的文件数量 storage_size 该目录的Size（bytes） storage_size(unit) 该目录的Size（KB） storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间，即它考虑了为集群设置的复制因子

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
导入数据 - 数据湖探索 DLI
导入数据 - 数据湖探索 DLI

导入OBS表时，创建OBS表时指定的路径必须是文件夹，若建表路径是文件将导致导入数据失败。仅支持导入位于OBS路径上的原始数据。不建议对同一张表并发导入数据，因为有一定概率发生并发冲突，导致导入失败。导入数据时只能指定一个路径，路径中不能包含逗号。当OBS桶目录下有文件夹和文件同名时，导入数据会优先指向该路径下的文件而非文件夹。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据相关
产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

基于表的权限管理，可以精细化到列权限。基于文件的权限管理。高性能性能基于软硬件一体化的深度垂直优化。大数据开源版本性能。跨源分析支持多种数据格式，云上多种数据源、ECS自建数据库以及线下数据库，数据无需搬迁，即可实现对云上多个数据源进行分析，构建企业的统一视图，帮助企业快速完成业务创新和数据价值探索。

帮助中心 > 数据湖探索 DLI > 产品介绍
使用Flink Jar读写DIS开发指南 - 数据湖探索 DLI

支持的包类型如下： JAR：用户jar文件 PyFile：用户Python文件 File：用户文件 ModelFile：用户AI模型文件 JAR OBS路径选择对应程序包的OBS路径。说明：程序包需提前上传至OBS服务中保存。只支持选择文件。 Flink Jar所在的OBS路径

 帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南

总条数： 420

上一页
1
...
7
8
9
...
21
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Hudi常见配置参数 - 数据湖探索 DLI

查询Spark作业日志 - 数据湖探索 DLI

更新跨源认证（废弃） - 数据湖探索 DLI

Spark SQL常用配置项说明 - 数据湖探索 DLI

从PostgreSQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

查询作业监控信息（废弃） - 数据湖探索 DLI

SQL作业运行报错：DLI.0002 FileNotFoundException - 数据湖探索 DLI

JDBC源表 - 数据湖探索 DLI

Kafka源表 - 数据湖探索 DLI

在Spark SQL作业中使用UDF - 数据湖探索 DLI

查询Flink作业日志 - 数据湖探索 DLI

Spark 2.4.5版本说明 - 数据湖探索 DLI

DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

使用Spark Jar作业读取和查询OBS数据 - 数据湖探索 DLI

导入Flink作业 - 数据湖探索 DLI

查询SQL作业日志 - 数据湖探索 DLI

SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

导入数据 - 数据湖探索 DLI

产品优势 - 数据湖探索 DLI

使用Flink Jar读写DIS开发指南 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线