搜索_华为云

数据湖探索 DLI - 数据湖探索 DLI

None 服务介绍数据湖探索 DLI 介绍什么是数据湖探索 02:47 数据湖探索DLI产品介绍功能介绍数据湖探索 DLI 熟悉数据湖探索控制台 03:10 数据湖探索控制台介绍操作指导数据湖探索 DLI 介绍怎样创建提交SQL作业 07:36 数据湖探索SQL作业入门指导

 帮助中心 > 数据湖探索 DLI > 视频帮助
设置Spark作业优先级 - 数据湖探索 DLI

在实际作业运行中，由于作业的重要程度以及紧急程度不同，需要重点保障重要和紧急的作业正常运行，因此需要满足它们正常运行所需的计算资源。 DLI提供的设置作业优先级功能，可以对每个Spark作业设置作业优先级，当资源不充足时，可以优先满足优先级较高的作业的计算资源。 Spark 2.4.5及以上版本的作业支持设置作业优先级。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
Spark 3.1.1版本说明 - 数据湖探索 DLI

Spark 3.1.1版本说明数据湖探索（DLI）遵循开源Spark计算引擎的发布一致性。本文介绍Spark 3.1.1版本所做的变更说明。更多Spark 3.1.1版本说明请参考Spark Release Notes。 Spark 3.1.1版本发布时间版本名称发布时间

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
创建Password类型跨源认证 - 数据湖探索 DLI

通过在DLI控制台创建的Password类型的跨源认证，将DWS、RDS、DCS和DDS数据源的密码信息存储到DLI，无需在SQL作业中配置账号密码，安全访问DWS、RDS、DDS、DCS数据源。 Password类型跨源认证支持连接的数据源 Password类型跨源认证支持连接的数据源如表1所示。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 使用DLI的跨源认证管理数据源访问凭证
FileSystem结果表 - 数据湖探索 DLI

小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subtask，每个桶将至少包含一个Part文件。将根据配置的滚动策略来创建其他Part文件。对于Row Formats默认的策略是根

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
开启或关闭数据多版本 - 数据湖探索 DLI

开启或关闭数据多版本功能描述 DLI提供多版本功能，用于数据的备份与恢复。开启多版本功能后，在进行删除或修改表数据时（insert overwrite或者truncate操作），系统会自动备份历史数据并保留一定时间，后续您可以对保留周期内的数据进行快速恢复，避免因误操作丢失数据。其他

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 修改表
实时聚类 - 数据湖探索 DLI
实时聚类 - 数据湖探索 DLI

聚类算法是非监督算法中非常典型的一类算法，经典的K-Means算法通过提前确定类别数目，计算数据点之间的距离来分类。对于离线静态数据集，我们可以依赖领域中知识来确定类别数目，运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据，数据是在不断变化和演进，类别数目极

 帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线） > 历史版本（即将下线） > Flink SQL语法参考（不再演进，推荐使用Flink OpenSource SQL） > StreamingML
FileSystem结果表 - 数据湖探索 DLI

小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subtask，每个桶将至少包含一个Part文件。将根据配置的滚动策略来创建其他Part文件。对于Row Formats默认的策略是根

 帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线） > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
使用DLI的跨源认证管理数据源访问凭证 - 数据湖探索 DLI

使用DLI的跨源认证管理数据源访问凭证跨源认证概述创建CSS类型跨源认证创建Kerberos跨源认证创建Kafka_SSL类型跨源认证创建Password类型跨源认证跨源认证权限管理父主题：配置DLI读写外部数据源数据

 帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据
MySQL CDC源表 - 数据湖探索 DLI
MySQL CDC源表 - 数据湖探索 DLI

String MySQL数据库的密码。 database-name 是无 String 访问的数据库名称。数据库名称支持正则表达式以读取多个数据库的数据，例如flink(.)*表示以flink开头的数据库名。 table-name 是无 String 访问的表名。表名支持正则

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
实时聚类 - 数据湖探索 DLI
实时聚类 - 数据湖探索 DLI

聚类算法是非监督算法中非常典型的一类算法，经典的K-Means算法通过提前确定类别数目，计算数据点之间的距离来分类。对于离线静态数据集，我们可以依赖领域中知识来确定类别数目，运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据，数据是在不断变化和演进，类别数目极

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > 历史版本 > Flink SQL语法参考（不再演进，推荐使用Flink OpenSource SQL） > StreamingML
数据类型 - 数据湖探索 DLI
数据类型 - 数据湖探索 DLI

数据类型概述原生数据类型复杂数据类型

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

park的融合机器学习相关的大数据分析程序。传统上，通常是直接基于pip把Python库安装到执行机器上，对于DLI这样的Serverless化服务用户无需也感知不到底层的计算资源，那如何来保证用户可以更好的运行他的程序呢？ DLI服务在其计算资源中已经内置了一些常用的机器学习的算法库（具体可以参考”数据湖探索

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
迁移Elasticsearch数据至DLI - 数据湖探索 DLI

b已创建的DLI数据源连接。资源队列选择已创建的DLI SQL类型的队列。数据库名称选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名，即为“testdb”。表名选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名，即为“tablecss”。

帮助中心 > 数据湖探索 DLI > 最佳实践 > 数据迁移
开启或关闭数据多版本 - 数据湖探索 DLI

开启或关闭数据多版本功能描述 DLI提供多版本功能，用于数据的备份与恢复。开启多版本功能后，在进行删除或修改表数据时（insert overwrite或者truncate操作），系统会自动备份历史数据并保留一定时间，后续您可以对保留周期内的数据进行快速恢复，避免因误操作丢失数据。其他

 帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线） > Spark SQL语法参考（即将下线） > 修改表
创建Kerberos跨源认证 - 数据湖探索 DLI

创建认证信息-Kerberos 访问MRS的表。跨源认证创建成功后，在创建访问数据源时只需关联跨源认证即可安全访问数据源。建表时关联跨源认证的字段请参考表3。表3 建表时与Kerberos类型跨源认证关联的字段作业类型数据源参数是否必选数据类型说明 Flink OpenSource

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 使用DLI的跨源认证管理数据源访问凭证
Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

例如访问DWS大批量数据库数据时设置并发数，启动多任务的方式运行，避免作业运行超时。具体并发设置可以参考对接DWS样例代码中的partitionColumn和numPartitions相关字段和案例描述。调整Spark作业的Executor数量，分配更多的资源用于Spark作业的运行。父主题：

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
Flink作业推荐配置指导 - 数据湖探索 DLI

够从最近的Checkpoint进行状态恢复重启。图5 checkpoint参数 “Checkpoint间隔”为两次触发Checkpoint的间隔，执行Checkpoint机制会影响实时计算性能，配置间隔时间需权衡对业务的性能影响及恢复时长，建议大于Checkpoint的完成时间，建议设置为5分钟。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业性能调优类
Over聚合 - 数据湖探索 DLI
Over聚合 - 数据湖探索 DLI

范围内的窗口、FOLLOWING 所描述的区间并未支持。 ORDER BY 必须指定于单个的时间属性。可以在一个 SELECT 子句中定义多个 OVER 窗口聚合。然而，对于流式查询，由于目前的限制，所有聚合的 OVER 窗口必须是相同的。 OVER 窗口需要数据是有序的。因为表没有固定的排序，所以

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML
配置DLI队列与内网数据源的网络联通 - 数据湖探索 DLI

配置DLI队列与内网数据源的网络联通背景信息 DLI执行作业时如需访问外部数据源数据，如：DLI连接MRS、RDS、CSS、Kafka、DWS时，需要打通DLI和外部数据源之间的网络。DLI增强型跨源连接，底层采用对等连接的方式打通与目的数据源的vpc网络，通过点对点的方式实现数据互通。

帮助中心 > 数据湖探索 DLI > 最佳实践 > 队列网络联通

总条数： 1902

上一页
1
...
9
10
11
...
96
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

数据湖探索 DLI - 数据湖探索 DLI

设置Spark作业优先级 - 数据湖探索 DLI

Spark 3.1.1版本说明 - 数据湖探索 DLI

创建Password类型跨源认证 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

开启或关闭数据多版本 - 数据湖探索 DLI

实时聚类 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

使用DLI的跨源认证管理数据源访问凭证 - 数据湖探索 DLI

MySQL CDC源表 - 数据湖探索 DLI

实时聚类 - 数据湖探索 DLI

数据类型 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

迁移Elasticsearch数据至DLI - 数据湖探索 DLI

开启或关闭数据多版本 - 数据湖探索 DLI

创建Kerberos跨源认证 - 数据湖探索 DLI

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

Flink作业推荐配置指导 - 数据湖探索 DLI

Over聚合 - 数据湖探索 DLI

配置DLI队列与内网数据源的网络联通 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线