搜索_华为云

创建DLI表关联DWS - 数据湖探索 DLI

读取数据时，每一批次获取数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 batchsize 写入数据时，每一批次写入数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 truncate 执行

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接DWS表
Hudi Compaction操作说明 - 数据湖探索 DLI

入延迟，因而进行不阻塞摄入的异步Compaction很有意义。如何执行Compaction 仅执行Schedule Spark SQL（设置如下参数，写数据时触发） hoodie.compact.inline=true hoodie.schedule.compact.only.inline=true

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
LOAD数据到OBS外表报错：IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI

sql.shuffle.partitions参数设置的并行度过大，导致缓存区大小不够而导入数据报错。解决方案建议可以尝试调小spark.sql.shuffle.partitions参数值来解决缓冲区不足问题。具体该参数设置步骤如下：登录DLI管理控制台，单击“作业管理 >

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业运维类
API语法说明 - 数据湖探索 DLI
API语法说明 - 数据湖探索 DLI

API语法说明设置写入方式 Hudi通过hoodie.datasource.write.operation参数设置写入模式。 insert：该操作不需要通过索引去查询具体更新的文件分区，因此它的速度比upsert快。当不包含更新数据时建议使用该操作，如果存在更新数据使用该操作会出现重复数据。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Spark datasource API语法参考
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

连接容器镜像服务。登录SWR管理控制台。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。在安装容器引擎的虚拟机中执行上一步复制的登录指令。创建容器镜像组织。如果已创建组织则本步骤可以忽略。登录SWR管理控制台。选择左侧导航栏的“组织管理”，单击页面右上角的“创建组织”。

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
MERGE INTO - 数据湖探索 DLI
MERGE INTO - 数据湖探索 DLI

配的执行INSERT。这个语法仅需要一次全表扫描就完成了全部同步工作，执行效率要高于INSERT＋UPDATE。注意事项分区表合并需要设置参数spark.sql.forcePartitionPredicatesOnPartitionedTable.enabled为false。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DML语法说明
java样例代码 - 数据湖探索 DLI
java样例代码 - 数据湖探索 DLI

\"age\":\"23\"}")); Dataset<Row> dataFrame = sqlContext.read().json(javaRDD); 设置连接参数 String url = "192.168.4.62:8635,192.168.5.134:8635/test?authSource=admin";

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
DIS源表 - 数据湖探索 DLI
DIS源表 - 数据湖探索 DLI

"[0:2]"时，表示读取的分区范围是1-3，包括分区1、分区2和分区3，范围设置要在dis相应通道的范围内。 connector.offset 否用户可以根据需求设置该参数的数值，读取数据的起始位置，与start-time不能同时设置。 connector.start-time 否 DIS数据读取从该起始时间的数据。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建源表
创建DLI表关联RDS - 数据湖探索 DLI

读取数据时，每一批次获取数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 batchsize 写入数据时，每一批次写入数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 truncate 执行

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接RDS表
JDBC维表 - 数据湖探索 DLI
JDBC维表 - 数据湖探索 DLI

创建Flink OpenSource SQL作业时，在作业编辑界面的“运行参数”处，“Flink版本”需要选择“1.12”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。 Flink跨源开发场景中直接配置跨源认证信息存在密码泄露的风险，优先推荐您使用DLI提供的跨源认证。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建维表
Hudi Clustering操作说明 - 数据湖探索 DLI

间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”，以强制新数据写入新的文件组，或设置为更高的值以确保新数据被“填充”到现有小的文件组中，直到达到指定大小为止，但其会增加摄取延迟。为能

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
配置DLI作业桶 - 数据湖探索 DLI

请勿将该OBS桶用作其它用途，避免出现作业结果混乱等问题。 OBS桶需要由用户主账户统一设置及修改，子用户无权限。不配置DLI作业桶无法查看作业日志。您可以通过配置桶的生命周期规则，定时删除桶中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后请谨慎修改，否则可能会造成历史数据无法查找。操作步骤

 帮助中心 > 数据湖探索 DLI > 用户指南 > 准备工作
Flink Jar作业访问DWS启动异常，提示客户端连接数太多错误 - 数据湖探索 DLI

在GaussDB(DWS) 控制台设置会话闲置超时时长session_timeout，在闲置会话超过所设定的时间后服务端将主动关闭连接。 session_timeout默认值为600秒，设置为0表示关闭超时限制，一般不建议设置为0。 session_timeout设置方法如下：登录GaussDB(DWS)

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
Hudi Archive操作说明 - 数据湖探索 DLI

多会导致性能问题，所以元数据文件数量最好控制在1000以内。如何执行Archive 写完数据后archive Spark SQL（set设置如下参数，写数据时触发） hoodie.archive.automatic=true hoodie.keep.max.commits=30

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
删除分区 - 数据湖探索 DLI
删除分区 - 数据湖探索 DLI

单引号（''）包围起来。 partition_specs 分区信息，key=value形式，key为分区字段，value为分区值。若分区字段为多个字段，可以不包含所有的字段，会删除匹配上的所有分区。“partition_specs”中的参数默认带有“( )”，例如：PARTITION

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
MRS配置 - 数据湖探索 DLI
MRS配置 - 数据湖探索 DLI

conf文件。创建MRS HBase表创建DLI表关联MRS HBase表之前确保HBase的表是存在的。以样例代码为例，具体的流程是：远程登录ECS，通过hbase shell命令查看表信息。其中，“hbtest”是要查询的表名。 describe 'hbtest' （可选）如果不存在

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
管理队列 - 数据湖探索 DLI
管理队列 - 数据湖探索 DLI

管理队列查看队列的基本信息队列权限管理分配队列至项目创建消息通知主题队列标签管理队列属性设置测试地址连通性删除队列变更普通队列规格普通队列弹性扩缩容设置普通队列的弹性扩缩容定时任务修改普通队列的网段父主题：创建弹性资源池和队列

 帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列
pyspark样例代码 - 数据湖探索 DLI

sparkSession = SparkSession.builder.appName("datasource-mongo").getOrCreate() 设置连接参数 1 2 3 4 5 6 url = "192.168.4.62:8635,192.168.5.134:8635/test?authSource=admin"

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
string_split - 数据湖探索 DLI
string_split - 数据湖探索 DLI

sql作业，输入以下作业运行脚本，提交运行作业。注意：创建作业时，在作业编辑界面的“运行参数”处，“Flink版本”选择“1.12”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。如下脚本中的加粗参数请根据实际环境修改。 CREATE TABLE kafkaSource (

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 函数 > 内置函数 > 表值函数
string_split - 数据湖探索 DLI
string_split - 数据湖探索 DLI

sql作业，输入以下作业运行脚本，提交运行作业。注意：创建作业时，在作业编辑界面的“运行参数”处，“Flink版本”选择“1.15”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。如下脚本中的加粗参数请根据实际环境修改。 CREATE TABLE kafkaSource (

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数 > 表值函数

总条数： 468

上一页
1
...
11
12
13
...
24
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建DLI表关联DWS - 数据湖探索 DLI

Hudi Compaction操作说明 - 数据湖探索 DLI

LOAD数据到OBS外表报错：IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI

API语法说明 - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

MERGE INTO - 数据湖探索 DLI

java样例代码 - 数据湖探索 DLI

DIS源表 - 数据湖探索 DLI

创建DLI表关联RDS - 数据湖探索 DLI

JDBC维表 - 数据湖探索 DLI

Hudi Clustering操作说明 - 数据湖探索 DLI

配置DLI作业桶 - 数据湖探索 DLI

Flink Jar作业访问DWS启动异常，提示客户端连接数太多错误 - 数据湖探索 DLI

Hudi Archive操作说明 - 数据湖探索 DLI

删除分区 - 数据湖探索 DLI

MRS配置 - 数据湖探索 DLI

管理队列 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

string_split - 数据湖探索 DLI

string_split - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线