搜索_华为云

产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

即开即用，Serverless架构。需要较强的技术能力进行搭建、配置、运维。高可用具有跨AZ容灾能力。无高易用学习成本学习成本低，包含10年、上千个项目经验固化的调优参数。同时提供可视化智能调优界面。学习成本高，需要了解上百个调优参数。支持数据源云上：OBS、RDS、DWS、CSS、MongoDB、Redis。

帮助中心 > 数据湖探索 DLI > 产品介绍
执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

desc查询具体是哪些key引起的数据倾斜。然后对于倾斜Key单独做处理，加盐让其先将他分为多个task分别统计，最后再对分开统计结果进行结合统计。例如：如下SQL示例，假设已知倾斜key为'Key01',导致单个task处理大量数据，做如下处理： SELECT a.Key, SUM(a

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
使用Notebook实例提交DLI作业 - 数据湖探索 DLI

使用Notebook实例提交DLI作业 Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块，提供在线的开发和调试能力，用于编写和调测模型训练代码。完成DLI对接Notebook实例后，您可以基于Notebook提供的Web交互的开发环境同时完成代

 帮助中心 > 数据湖探索 DLI > 用户指南
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

、私有能力等内置到自定义镜像中，以此改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。用户使用自定义镜像功能需要具备Docker相关的基础知识。使用限制

 帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
使用DLI提交Spark Jar作业 - 数据湖探索 DLI

操作场景 DLI允许用户提交编译为Jar包的Spark作业，Jar包中包含了Jar作业执行所需的代码和依赖信息，用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。在提交Spark Jar作业前，将程序包上传至OBS，并将程序包与数据和作业参数一起提交以运行作业。本例介绍

 帮助中心 > 数据湖探索 DLI > 快速入门
成长地图 - 数据湖探索 DLI
成长地图 - 数据湖探索 DLI

Native Lives Kubernetes系列课程，带你走进云原生技术的核心 GO语言深入之道介绍几个Go语言及相关开源框架的插件机制跟唐老师学习云网络唐老师将自己对网络的理解分享给大家智能客服您好！我是有问必答知识渊博的的智能问答机器人，有问题欢迎随时求助哦！社区求助华为

 帮助中心 > 数据湖探索 DLI > 成长地图
DLI作业开发流程 - 数据湖探索 DLI

资源管理和作业调度。支持多种数据源和格式，提供了丰富的数据处理能力，包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。适用于大规模数据处理和分析，如机器学习训练、日志分析、大规模数据挖掘等场景。管理Jar作业的程序包 DLI允许用户提交编译为Jar包的F

帮助中心 > 数据湖探索 DLI > 用户指南
对象存储OBS结果表 - 数据湖探索 DLI

FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
API接口返回的中文字符为乱码，如何解决？ - 数据湖探索 DLI

DLI接口返回的结果编码格式为“UTF-8”，在调用接口获取返回结果时需要对返回的信息编码转换为“UTF-8”。例如，参考如下实现对返回的response.content内容做编码格式转换，确保返回的中文格式不会乱码。 print(response.content.decode("utf-8")) 父主题： DLI

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI API类
FileSytem结果表 - 数据湖探索 DLI

成的目录创建非DLI表，通过DLI SQL进行下一步处理分析，并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。语法格式 1 2 3 4 5 6 7 create table filesystemSink ( attr_name

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

的融合机器学习相关的大数据分析程序。传统上，通常是直接基于pip把Python库安装到执行机器上，对于DLI这样的Serverless化服务用户无需也感知不到底层的计算资源，那如何来保证用户可以更好的运行他的程序呢？ DLI服务在其计算资源中已经内置了一些常用的机器学习的算法库（具体可以参考”数据湖探索

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
创建Bucket索引表调优 - 数据湖探索 DLI

围进行裁剪（例如最近一天、一月、一年），这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。维度表数据量一般整表数据规模较小，以更新数据为主，新增较少，表数据量比较稳定，且读取时通常需要全量读取做join之类的ETL计算，因此通常使用非分区表性能更好。分区表的分区键不允许更新，否则会产生重复数据。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Bucket调优示例
FileSystem结果表 - 数据湖探索 DLI

FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
通过跨源表向CloudTable Hbase表导入数据，executor报错：RegionTooBusyException - 数据湖探索 DLI

查看driver错误日志。查看executor错误日志。查看task错误日志。结论：rowkey过于集中，出现了热点region。处理步骤 Hbase做预分区。把rowkey散列化。建议与总结建议DLI在写入数据时也将数据离散化，避免大量数据写入同一个regionServer，同时，在

 帮助中心 > 数据湖探索 DLI > 常见问题 > 增强型跨源连接类
Hudi表分区设计规范 - 数据湖探索 DLI

果分区键的值发生变更后，会导致相同主键的行记录出现多条的情况。在以日期分区的场景，可采用数据的创建时间为分区字段，切记不要采用数据更新时间做分区。当指定Hudi的索引类型为Global索引类型时，Hudi支持跨分区进行数据更新，但Global索引性能较差一般不建议使用。建议

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
Schema演进语法说明 - 数据湖探索 DLI

ma演进。 Schema演进支持的范围 Schema演进支持范围：支持列（包括嵌套列）相关的增、删、改、位置调整等操作。不支持对分区列做演进。不支持对Array类型的嵌套列进行增、删、列操作。 ALTER COLUMN ADD COLUMNS RENAME COLUMN RENAME

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考
EXCEPT - 数据湖探索 DLI
EXCEPT - 数据湖探索 DLI

返回两个查询结果的差集。语法格式 1 select_statement EXCEPT select_statement; 关键字 EXCEPT：做集合减法。A EXCEPT B将A中所有和B重合的记录扣除，然后返回去重后的A中剩下的记录，EXCEPT默认不去重。与UNION相同，每一个

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > SELECT > 集合运算SELECT
功能总览 - 数据湖探索 DLI
功能总览 - 数据湖探索 DLI

相关组件都运行在容器中，通过下载DLI提供的自定义镜像，可以改变Spark作业和Flink作业的容器运行环境。例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式方便地帮助用户进行功能扩展。发布区域：全部创建自定义镜像

 帮助中心 > 数据湖探索 DLI > 功能总览
Schema演进语法说明 - 数据湖探索 DLI

ma演进。 Schema演进支持的范围 Schema演进支持范围：支持列（包括嵌套列）相关的增、删、改、位置调整等操作。不支持对分区列做演进。不支持对Array类型的嵌套列进行增、删、列操作。 ALTER COLUMN ADD COLUMNS RENAME COLUMN RENAME

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考
批量删除资源标签 - 数据湖探索 DLI

为指定实例批量删除标签。此接口为幂等接口：删除时，如果删除的标签不存在，默认处理成功。单次最多支持删除20个标签删除时不对标签字符集范围做校验。删除时tags结构体不能缺失，key不能为空，或者空字符串。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > 数据湖探索 DLI > API参考 > 资源标签相关API

总条数： 40

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

产品优势 - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

使用Notebook实例提交DLI作业 - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

使用DLI提交Spark Jar作业 - 数据湖探索 DLI

成长地图 - 数据湖探索 DLI

DLI作业开发流程 - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

API接口返回的中文字符为乱码，如何解决？ - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

创建Bucket索引表调优 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

通过跨源表向CloudTable Hbase表导入数据，executor报错：RegionTooBusyException - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

Schema演进语法说明 - 数据湖探索 DLI

EXCEPT - 数据湖探索 DLI

功能总览 - 数据湖探索 DLI

Schema演进语法说明 - 数据湖探索 DLI

批量删除资源标签 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线