搜索_华为云

Hudi表使用约束 - 数据湖探索 DLI

写时复制表也简称COW表，使用parquet文件存储数据，内部的更新操作需要通过重写原始parquet文件完成。优点：读取时，只读取对应分区的一个数据文件即可，较为高效。缺点：数据写入的时候，需要复制一个先前的副本再在其基础上生成新的数据文件，这个过程比较耗时。且由于耗时，读请求读取到的数据相对就会滞后。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述
CLEAN_FILE - 数据湖探索 DLI
CLEAN_FILE - 数据湖探索 DLI

table_name 需要清理无效数据文件的Hudi表的表名，必选。 op_type 命令运行模式，可选，默认值为dry_run，取值：dry_run、repair、undo、query。 dry_run：显示需要清理的无效数据文件。 repair：显示并清理无效的数据文件。 undo：恢复已清理的数据文件

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
FileSytem结果表 - 数据湖探索 DLI

FileSytem结果表功能描述 FileSystem结果表用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。数据生成后，可直接对生成的目录创建非DLI表，通过DLI SQL进行下一步处理分析，并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
FileSystem结果表 - 数据湖探索 DLI

uid会重新生成。文件合并 FileSink 开始支持已经提交Pending文件的合并，从而允许应用设置一个较小的时间周期并且避免生成大量的小文件。这一功能开启后，在文件转为Pending状态与文件最终提交之间会进行文件合并。这些Pending状态的文件将首先被提交为一个以.

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
JSON Format - 数据湖探索 DLI
JSON Format - 数据湖探索 DLI

按照如下方式查看taskmanager.out文件中的数据结果：登录DLI管理控制台，选择“作业管理 > Flink作业”。单击对应的Flink作业名称，选择“运行日志”，单击“OBS桶”，根据作业运行的日期，找到对应日志的文件夹。进入对应日期的文件夹后，找到名字中包含“taskmanager”的文件夹进入，下载获取

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
Flink SQL作业类 - 数据湖探索 DLI

SQL作业中创建表使用EL表达式，作业运行提示DLI.0005错误怎么办？ Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 Flink SQL作业运行失败，日志中有connect to DIS failed java.lang.IllegalArgumentException:

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类
Print结果表 - 数据湖探索 DLI
Print结果表 - 数据湖探索 DLI

若为true，则表示输出数据到taskmanager的error文件中。若为false，则表示输出数据到taskmanager的out中。示例从kafka中读取数据输出到taskmanager的out文件中，可以在taskmanager的out文件中看到输出结果。 create table kafkaSource(

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
API概览 - 数据湖探索 DLI
API概览 - 数据湖探索 DLI

、更新SQL作业、新建Flink自定义作业、更新Flink自定义作业、批量运行作业、查询作业列表、查询作业详情、查询作业执行计划、查询作业监控信息、批量停止作业、删除作业、批量删除作业、导出Flink作业、导入Flink作业、生成Flink SQL作业的静态流图、创建IEF消息通

 帮助中心 > 数据湖探索 DLI > API参考
对象存储OBS结果表 - 数据湖探索 DLI

uid会重新生成。文件合并 FileSink 开始支持已经提交Pending文件的合并，从而允许应用设置一个较小的时间周期并且避免生成大量的小文件。这一功能开启后，在文件转为Pending状态与文件最终提交之间会进行文件合并。这些Pending状态的文件将首先被提交为一个以.

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
CSV Format - 数据湖探索 DLI
CSV Format - 数据湖探索 DLI

按照如下方式查看taskmanager.out文件中的数据结果：登录DLI管理控制台，选择“作业管理 > Flink作业”。单击对应的Flink作业名称，选择“运行日志”，单击“OBS桶”，根据作业运行的日期，找到对应日志的文件夹。进入对应日期的文件夹后，找到名字中包含“taskmanager”的文件夹进入，下载获取

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
日期函数 - 数据湖探索 DLI
日期函数 - 数据湖探索 DLI

next_day quarter second to_char to_date to_date1 to_utc_timestamp trunc unix_timestamp weekday weekofyear year 父主题：内置函数

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数
CLEAN - 数据湖探索 DLI
CLEAN - 数据湖探索 DLI

CLEAN 命令功能用于根据配置对Timeline上的Instant进行clean，删除老旧的历史版本文件，以减少hudi表的数据存储及读写压力。命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
运行Spark作业报java.lang.AbstractMethodError - 数据湖探索 DLI

lang.AbstractMethodError。解决措施有如下两种方案：基于Spark 2.3重新编译应用使用sl4j+log4j来实现日志功能，而不是直接继承Spark内部接口Logging。具体如下： <dependency> <groupId>org.slf4j</groupId>

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

file_num 指定目录的文件数量 storage_size 该目录的Size（bytes） storage_size(unit) 该目录的Size（KB） storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间，即它考虑了为集群设置的复制因子

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
Hudi Archive操作说明 - 数据湖探索 DLI

Archive用户清理Hudi表的元数据文件（位于.hoodie目录下，格式为 ${时间戳}.${操作类型}.${操作状态}，比如20240622143023546.deltacommit.request）。对Hudi表进行的每次操作都会产生元数据文件，而元数据文件过多会导致性能问题，所以元数据文件数量最好控制在1000以内。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
时间函数 - 数据湖探索 DLI
时间函数 - 数据湖探索 DLI

‘Asia/Tokyo’ 时区，则返回 ‘1970-01-01 09:00:44’。 UNIX_TIMESTAMP() BIGINT 以秒为单位获取当前的 Unix 时间戳。此函数不是确定性的，这意味着将为每个记录重新计算该值。 UNIX_TIMESTAMP(string1[, string2]) BIGINT

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
Maxwell Format - 数据湖探索 DLI
Maxwell Format - 数据湖探索 DLI

按照如下方式查看taskmanager.out文件中的数据结果：登录DLI管理控制台，选择“作业管理 > Flink作业”。单击对应的Flink作业名称，选择“运行日志”，单击“OBS桶”，根据作业运行的日期，找到对应日志的文件夹。进入对应日期的文件夹后，找到名字中包含“taskmanager”的文件夹进入，下载获取

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
使用Livy提交Spark Jar作业 - 数据湖探索 DLI

准备一个linux弹性云服务器ECS，用于安装DLI Livy。 ECS需要放通30000至32767端口、8998端口。具体操作请参考添加安全组规则。 ECS需安装Java JDK，JDK版本建议为1.8。配置Java环境变量JAVA_HOME。查询弹性云服务器ECS详细信息，获取ECS的“私有IP地址”。

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
Hudi Compaction操作说明 - 数据湖探索 DLI

Plan一个一个去执行，一直到全部都执行完。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
SQL作业开发类 - 数据湖探索 DLI

SQL作业如何指定表的部分字段进行表数据的插入 SQL作业运行慢如何定位怎样查看DLI SQL日志？怎样查看DLI的执行SQL记录？执行SQL作业时产生数据倾斜怎么办？ SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中为什么SQL作业一直处于“提交中”？父主题： SQL作业类

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类

总条数： 586

上一页
1
...
7
8
9
...
30
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Hudi表使用约束 - 数据湖探索 DLI

CLEAN_FILE - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

JSON Format - 数据湖探索 DLI

Flink SQL作业类 - 数据湖探索 DLI

Print结果表 - 数据湖探索 DLI

API概览 - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

CSV Format - 数据湖探索 DLI

日期函数 - 数据湖探索 DLI

CLEAN - 数据湖探索 DLI

运行Spark作业报java.lang.AbstractMethodError - 数据湖探索 DLI

SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

Hudi Archive操作说明 - 数据湖探索 DLI

时间函数 - 数据湖探索 DLI

Maxwell Format - 数据湖探索 DLI

使用Livy提交Spark Jar作业 - 数据湖探索 DLI

Hudi Compaction操作说明 - 数据湖探索 DLI

SQL作业开发类 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线