搜索_华为云

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

OBS路径：选择1.aegg包所在的OBS路径。分组设置和分组名称根据情况选择。单击“确定”完成程序包上传。在报错的Spark作业编辑页面，“依赖python文件”处选择已上传的egg程序包，重新运行Spark作业。 pyspark作业对接MySQL，需要创建跨源链接，打通DLI和RDS之间的网络。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
CONVERT TO DELTA - 数据湖探索 DLI
CONVERT TO DELTA - 数据湖探索 DLI

TO DELTA 命令将现有的 Parquet 表就地转换为 Delta 表。此命令会列出目录中的所有文件，创建 Delta Lake 事务日志来跟踪这些文件，并通过读取所有 Parquet 文件的页脚来自动推断数据架构。转换过程会收集统计信息，以提升转换后的 Delta 表的查询性能。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DDL语法说明
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

单价*CU数*小时数。步骤1：创建并上传数据创建CSV数据，例如，如图2所示test.csv：图2 创建test.csv文件在OBS上建桶obs-csv-parquet，并将test.csv文件上传至OBS，如图3所示：图3 上传CSV数据至OBS 在OBS上创建一个新

 帮助中心 > 数据湖探索 DLI > 最佳实践
修改表生命周期的时间 - 数据湖探索 DLI

修改表生命周期的时间功能描述修改已存在的分区表或非分区表的生命周期。当第一次开启生命周期时，会扫描表/分区会扫描路径下的表数据文件，更新表/分区的LAST_ACCESS_TIME，耗时与分区数和文件数相关。约束限制表生命周期处于公测阶段，如果有需要请联系客服申请开通白名单。表生命周期功能

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 表生命周期管理
创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？ - 数据湖探索 DLI

创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？问题现象创建OBS外表，因为指定的OBS文件内容中某字段包含回车换行符导致表字段数据错误。例如，当前创建的OBS外表语句为： CREATE TABLE test06 (name string, id

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
资源相关 - 数据湖探索 DLI
资源相关 - 数据湖探索 DLI

SDK概述下载样例代码。 kind：资源包类型，当前支持包类型分别为： jar：用户jar文件 pyfile：用户Python文件 file：用户文件 modelfile：用户AI模型文件 paths：对应资源包的OBS路径，参数构成为：{bucketName}.{obs域名}/

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK
Hudi表索引设计规范 - 数据湖探索 DLI

数据存储文件生成索引信息。用Flink状态索引，Flink写入后，不支持Spark继续写入。 Flink在写Hudi的MOR表只会生成log文件，后续通过compaction操作，将log文件转为parquet文件。Spark在更新Hudi表时严重依赖parquet文件是否存在

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

应jar包文件的OBS路径，格式为：obs://桶名/文件夹路径名/包名。依赖python文件（--py-files）运行spark作业依赖的py-files。可以输入Python文件名称，也可以输入Python文件对应的OBS路径，格式为：obs://桶名/文件夹路径名/文件名。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
创建并提交Flink作业 - 数据湖探索 DLI

本章节指导用户通过API创建并运行Flink自定义作业。约束限制新队列第一次运行作业时，需要一定的时间，通常为6~10分钟。涉及接口创建弹性资源池：创建弹性资源池。创建队列：在弹性资源池中添加队列。上传分组资源：上传Flink自定义作业所需的资源包。查询组内资源包：确认上传的资源包是否正确。创建Fl

帮助中心 > 数据湖探索 DLI > API参考 > API快速入门
在Spark SQL作业中使用UDF - 数据湖探索 DLI

打包成功后，生成的Jar包会放到target目录下，以备后用。本示例将会生成到：“D:\DLITest\MyUDF\target”下名为“MyUDF-1.0-SNAPSHOT.jar”。图10 生成Jar包登录OBS控制台，将生成的Jar包文件上传到OBS路径下。 Jar包文件上传的OBS桶

 帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
SQL作业访问报错：File not Found - 数据湖探索 DLI

执行SQL作业访问报错：File not Found。可能原因可能由于文件路径错误或文件不存在导致系统无法找指定文件路径或文件。文件被占用。解决措施检查文件路径、文件名。检查文件的路径是否正确，包括目录名称和文件名。文件被占用文件被占用导致的文件报错找不到，一般是读写冲突产生的，建议查询SQ

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业运维类
创建并提交Spark作业 - 数据湖探索 DLI

本章节指导用户通过API创建并提交Spark作业。约束限制新队列第一次运行作业时，需要一定的时间，通常为6~10分钟。涉及接口创建弹性资源池：创建弹性资源池。创建队列：在弹性资源池中添加队列。上传分组资源：上传Spark作业所需的资源包。查询组内资源包：确认上传的资源包是否正确。创建批处理作业：创建并提交Spark批处理作业。

帮助中心 > 数据湖探索 DLI > API参考 > API快速入门
创建SQL作业的API执行超过时间限制，运行超时报错 - 数据湖探索 DLI

to refresh. 问题根因 API以同步模式调用运行时会有两分钟的超时时间限制，如果API调用超过该时间限制则会超时报错。解决方案调用“提交SQL作业”API时可以通过设置“dli.sql.sqlasync.enabled”参数为“true”来异步运行该作业。具体可以参考提交SQL作业API。

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI API类
Hudi表使用约束 - 数据湖探索 DLI

写时复制表也简称COW表，使用parquet文件存储数据，内部的更新操作需要通过重写原始parquet文件完成。优点：读取时，只读取对应分区的一个数据文件即可，较为高效。缺点：数据写入的时候，需要复制一个先前的副本再在其基础上生成新的数据文件，这个过程比较耗时。且由于耗时，读请求读取到的数据相对就会滞后。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述
Print结果表 - 数据湖探索 DLI
Print结果表 - 数据湖探索 DLI

若为true，则表示输出数据到taskmanager的error文件中。若为false，则表示输出数据到taskmanager的out中。示例从kafka中读取数据输出到taskmanager的out文件中，可以在taskmanager的out文件中看到输出结果。 create table kafkaSource(

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
什么是用户配额？ - 数据湖探索 DLI

配额是指云平台预先设定的资源使用限制，包括资源数量和容量等。设置配额是为了确保资源合理的分配和使用，避免资源过度集中和资源浪费。如果资源配额限制满足不了用户的使用需求，可以通过工单系统来提交您的申请，并告知您申请提高配额的理由。在通过审理之后，系统会更新您的配额并进行通知。关于配额的具体操作说明，请参见关于配额。

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI资源配额类
Hudi Clean操作说明 - 数据湖探索 DLI

Hudi Clean操作说明什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件)，减轻存储压力，提升list操作效率。如何执行Clean 写完数据后clean Spark SQL（设置如下参数，随后执行任意写入SQL时，在满足条件时触发）

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
在Spark SQL作业中使用UDTF - 数据湖探索 DLI

打包成功后，生成的Jar包会放到target目录下，以备后用。本示例将会生成到：“D:\MyUDTF\target”下名为“MyUDTF-1.0-SNAPSHOT.jar”。图10 生成Jar包登录OBS控制台，将生成的Jar包文件上传到OBS路径下。 Jar包文件上传的OBS桶所在的

 帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
在Spark SQL作业中使用UDAF - 数据湖探索 DLI

打包成功后，生成的Jar包会放到target目录下，以备后用。本示例将会生成到：“D:\DLITest\MyUDAF\target”下名为“MyUDAF-1.0-SNAPSHOT.jar”。登录OBS控制台，将生成的Jar包文件上传到OBS路径下。 Jar包文件上传的OBS桶所在的区域

 帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
对象存储OBS源表 - 数据湖探索 DLI

对象存储OBS源表功能描述文件系统连接器可用于将单个文件或整个目录的数据读取到单个表中。当使用目录作为source路径时，对目录中的文件进行无序的读取。更多信息参考文件系统 SQL 连接器语法格式 1 2 3 4 5 6 7 8 9 10 11 CREATE

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS

总条数： 499

上一页
1
2
3
4
5
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

CONVERT TO DELTA - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

修改表生命周期的时间 - 数据湖探索 DLI

创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？ - 数据湖探索 DLI

资源相关 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

创建Spark作业 - 数据湖探索 DLI

创建并提交Flink作业 - 数据湖探索 DLI

在Spark SQL作业中使用UDF - 数据湖探索 DLI

SQL作业访问报错：File not Found - 数据湖探索 DLI

创建并提交Spark作业 - 数据湖探索 DLI

创建SQL作业的API执行超过时间限制，运行超时报错 - 数据湖探索 DLI

Hudi表使用约束 - 数据湖探索 DLI

Print结果表 - 数据湖探索 DLI

什么是用户配额？ - 数据湖探索 DLI

Hudi Clean操作说明 - 数据湖探索 DLI

在Spark SQL作业中使用UDTF - 数据湖探索 DLI

在Spark SQL作业中使用UDAF - 数据湖探索 DLI

对象存储OBS源表 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线