搜索_华为云

数据迁移与传输方式概述 - 数据湖探索 DLI

CDM支持数据库、数据仓库、文件等多种类型的数据源，通过可视化界面对数据源迁移任务进行配置，提高数据迁移和集成的效率。具体操作请参考迁移外部数据源数据至DLI。图1 迁移数据至DLI 配置DLI读写外部数据源如果您不想将数据导入OBS或DLI的数据表中，DLI提供的跨源访问能力，支持您在不迁移数据的情况下，连接数据源获取数据并进行数据分析。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输
Flink Jar作业访问DWS启动异常，提示客户端连接数太多错误 - 数据湖探索 DLI

active/non-active/reserved: 5/508/3 原因分析当前访问的DWS数据库连接已经超过了最大连接数。错误信息中，non-active的个数表示空闲连接数，例如，non-active为508，说明当前有大量的空闲连接。解决方案出现该问题时建议通过以下操作步骤解决。登录D

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

例使用的HBase版本1.3.1和2.1.1和2.2.3）：参考增强型跨源连接，在DLI上根据HBase所在的虚拟私有云和子网创建相应的增强型跨源，并绑定所要使用的Flink作业队列。参考“修改主机信息”章节描述，在增强型跨源中增加MRS的主机信息。设置HBase集群的安全组

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

SQL使用DEW管理访问凭据创建HBase源表的列簇必须定义为ROW类型，字段名对应列簇名（column family），嵌套的字段名对应列限定符名（column qualifier）。用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列，剩下的原子数据类型字段（比如，STRING

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hbase
使用DLI提交SQL作业查询RDS MySQL数据 - 数据湖探索 DLI

如需重新创建VPC和子网，请参考创建虚拟私有云和子网。说明：跨源场景数据源网段和弹性资源池的网段不能重合。 - 数据库端口默认使用3306端口。 3306 安全组安全组限制实例的安全访问规则，加强云数据库RDS服务与其他服务间的安全访问。数据源的安全组需放通DLI弹性资源池的网段。

帮助中心 > 数据湖探索 DLI > 快速入门
创建DLI表关联DDS - 数据湖探索 DLI

authSource=admin" database DDS的数据库名，如果在"url"中同时指定了数据库名，则"url"中的数据库名不生效。 collection DDS中的collection名，如果在"url"中同时指定了collection，则"url"中的collection不生效。 user

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接DDS表
DLI预置的SQL模板中TPC-H样例数据说明 - 数据湖探索 DLI

基准测试的度量单位是每小时执行的查询数( QphH@size)，其中“H”表示每小时系统执行复杂查询的平均次数，“size”表示数据库规模的大小，能够反映出系统在处理查询时的能力。TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数。总而言之，TPC组织颁布的TPC-H

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业 > 创建并管理SQL作业模板
Raw Format - 数据湖探索 DLI
Raw Format - 数据湖探索 DLI

指定字节序来编码数字值的字节。有效值为'big-endian'和'little-endian'。更多细节可查阅字节序。支持的Connector Kafka UpsertKafka 示例使用kafka发送数据，输出到print中。根据kafka所在的虚拟私有云和子网创建相应的跨源，并绑

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > Format
DLI跨源连接报错找不到子网怎么办？ - 数据湖探索 DLI

Access”是跨源场景访问和使用VPC、子网、路由、对等连接的权限。了解更多DLI委托权限请参考DLI委托权限。选择dli_management_agency需要包含的权限后，并单击“更新委托权限”。图1 更新委托权限委托更新完成后，重新创建跨源连接和运行作业。父主题：增强型跨源连接类

 帮助中心 > 数据湖探索 DLI > 常见问题 > 增强型跨源连接类
创建DLI程序包 - 数据湖探索 DLI

选择“创建新分组”：可输入自定义的组名称。选择“不分组”：不需要选择或输入组名称。说明：如果选择分组，则对应的权限管理为对应程序包组的权限管理。如果选择不分组，则对应的权限管理为对应程序包的权限管理。程序包组和程序包权限管理请参考程序包权限管理。标签使用标签标识云资源。包括标签键和标签值。

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作 > 管理Jar作业程序包
新建跨源连接，显示已激活，但使用时提示communication link failure错误怎么办？ - 数据湖探索 DLI

failure”错误。将原有跨源连接删除重新创建。再次创建时，必须确保所选“安全组”、“虚拟私有云”、“子网””和“目的地址”与RDS中的设置完全一致。请选择正确的“服务类型”，本示例中为“RDS”。图1 创建经典型跨源连接-RDS 检查安全组网络（vpc）配置。若按照步骤

 帮助中心 > 数据湖探索 DLI > 常见问题 > 增强型跨源连接类
执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

task在运行，即为数据倾斜的情况。图1 数据倾斜样例常见数据倾斜场景 Group By聚合倾斜在执行Group By聚合操作时，如果某些分组键对应的数据量特别大，而其他分组键对应的数据量很小，在聚合过程中，数据量大的分组会占用更多的计算资源和时间，导致处理速度变慢，出现数据倾斜。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
pyspark样例代码 - 数据湖探索 DLI

在DLI管理控制台上已完成创建增强跨源连接，并绑定包年/包月队列。具体操作请参考《数据湖探索用户指南》。认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。通过DataFrame API 访问 import相关依赖

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

uri uri的格式为：mongodb://username:pwd@host:8635/db 其中以下参数需要修改为实际值： “username”为创建的mongo（DDS）数据库用户名。 “pwd”为创建的mongo（DDS）数据库用户名对应的密码。 “host”为创建的mongo（DDS）数据库实例IP。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？ - 数据湖探索 DLI

DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？问题现象 DLI分区内表导入了CSV文件数据，导入的文件数据没有包含对应分区列的字段数据。分区表查询时需要指定分区字段，导致查询不到表数据。问题根因 DLI分区内表在导入数据时，如果文件数据没

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
FileSytem结果表 - 数据湖探索 DLI

nt恢复”。 checkpoint间隔设置需在输出文件实时性、文件大小和恢复时长之间进行权衡，比如10分钟。使用HDFS时需要绑定相应的跨源，并填写相应的主机信息。使用hdfs时，请配置主NameNode的所在节点信息。参数说明表1 参数说明参数是否必选说明 connector

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
java样例代码 - 数据湖探索 DLI
java样例代码 - 数据湖探索 DLI

年/包月队列。具体操作请参考《数据湖探索用户指南》。认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。代码实现详解导入依赖涉及到的mvn依赖库 1 2 3 4 5 <dependency>

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中 - 数据湖探索 DLI

SQL作业存在join小表操作时，会触发自动广播所有executor，使得join快速完成。但同时该操作会增加executor的内存消耗，如果executor内存不够时，导致作业运行失败。解决措施排查执行的SQL中是否有使用“/*+ BROADCAST(u) */”强制做broadcastjoin。如果有，则需要去掉该标识。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
Hudi Clustering操作说明 - 数据湖探索 DLI

调度Clustering：使用可插拔的Clustering策略创建Clustering计划。识别符合Clustering条件的文件：根据所选的Clustering策略，调度逻辑将识别符合Clustering条件的文件。根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为t

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
窗口去重 - 数据湖探索 DLI
窗口去重 - 数据湖探索 DLI

窗口去重功能描述窗口去重是一种特殊的去重，它根据指定的多个列来删除重复的行，保留每个窗口和分区键的第一个或最后一个数据。对于流式查询，与普通去重不同，窗口去重只在窗口的最后返回结果数据，不会产生中间结果。它会清除不需要的中间状态。因此，窗口去重查询在用户不需要更新结果时，

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口

总条数： 502

上一页
1
...
16
17
18
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

数据迁移与传输方式概述 - 数据湖探索 DLI

Flink Jar作业访问DWS启动异常，提示客户端连接数太多错误 - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

使用DLI提交SQL作业查询RDS MySQL数据 - 数据湖探索 DLI

创建DLI表关联DDS - 数据湖探索 DLI

DLI预置的SQL模板中TPC-H样例数据说明 - 数据湖探索 DLI

Raw Format - 数据湖探索 DLI

DLI跨源连接报错找不到子网怎么办？ - 数据湖探索 DLI

创建DLI程序包 - 数据湖探索 DLI

新建跨源连接，显示已激活，但使用时提示communication link failure错误怎么办？ - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？ - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

java样例代码 - 数据湖探索 DLI

SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中 - 数据湖探索 DLI

Hudi Clustering操作说明 - 数据湖探索 DLI

窗口去重 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线