搜索_华为云

Spark Jar作业开发指南 - 数据湖探索 DLI

Spark Jar作业开发指南使用Spark Jar作业读取和查询OBS数据使用Spark作业访问DLI元数据使用Spark作业跨源访问数据源 Spark Jar 使用DEW获取访问凭证读写OBS 获取Spark作业委托临时凭证用于访问其他云服务

 帮助中心 > 数据湖探索 DLI > 开发指南
数据赋权（用户或项目） - 数据湖探索 DLI

该API用于将数据库或数据表的数据权限赋给指定的其他用户或项目。被赋权用户所在用户组的所属区域需具有Tenant Guest权限。赋权给项目时，只可以赋权给相同租户下的相同区域的项目。关于Tenant Guest权限的介绍和开通方法，详细参见权限策略和《统一身份认证服务用户指南》中的创建用户组。

帮助中心 > 数据湖探索 DLI > API参考 > 权限相关API
CREATE TABLE AS SELECT - 数据湖探索 DLI

由LakeFormation提供的元数据服务，权限配置详见LakeFormation文档。系统响应 Table创建成功，创建的Hudi表可以进入DLI控制台，在左侧菜单栏选择”数据管理”->”库表管理”，随后筛选数据库并点击名称，进入表列表查询。父主题： Hudi DML语法说明

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
get_json_object - 数据湖探索 DLI
get_json_object - 数据湖探索 DLI

取rid的值，查询key为city1，返回6。由于包含.，只能用['']来解析。 select get_json_object(json, "$['city1'].region['id']") from json_table where id =1; 取rid的值，查询key为city1，返回7。查询方法有如下两种。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 字符串函数
字符串函数 - 数据湖探索 DLI
字符串函数 - 数据湖探索 DLI

INITCAP(string) 返回新形式的 STRING，其中每个单词的第一个字符转换为大写，其余字符转换为小写。这里的单词表示字母数字的字符序列。 CONCAT(string1, string2, ...) 返回连接 string1，string2， … 的字符串。如果有任一参数为 NULL，则返回

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
自动续费 - 数据湖探索 DLI
自动续费 - 数据湖探索 DLI

进入“续费管理”页面。自定义查询条件。可在“自动续费项”页签查询已经开通自动续费的资源。可对“手动续费项”、“到期转按需项”、“到期不续费项”页签的资源开通自动续费。图2 续费管理为包年/包月资源开通自动续费。单个资源开通自动续费：选择需要开通自动续费的资源，单击操作列“更多

 帮助中心 > 数据湖探索 DLI > 计费说明 > 续费
Hudi数据表Compaction规范 - 数据湖探索 DLI

新版本的Parquet文件，那旧版本的文件就不能被Clean清理，增加存储压力。提交Spark jar作业时，CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并，需要消耗较高的内存资源，按照之前的表设计

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

以command命名DataFrameWriter触发的查询在Spark 3.2.x版本中，当DataFrameWriter触发的查询执行被发送给QueryExecutionListener时，这些查询的名称总是被设置为command。而在Spark 3.1及更早版本中，这些查询的名称可能是save、ins

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

uri uri的格式为：mongodb://username:pwd@host:8635/db 其中以下参数需要修改为实际值： “username”为创建的mongo（DDS）数据库用户名。 “pwd”为创建的mongo（DDS）数据库用户名对应的密码。 “host”为创建的mongo（DDS）数据库实例IP。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
Hudi表索引设计规范 - 数据湖探索 DLI

基于简化使用的角度，针对大数据量的表，可以通过采用Bucket索引来避免状态后端的复杂调优。如果Bucket索引+分区表的模式无法平衡Bueckt桶过大的问题，还是可以继续采用Flink状态索引，按照规范去优化对应的配置参数即可。建议基于Flink的流式写入的表，在数据量超

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
下载并安装JDBC驱动包 - 数据湖探索 DLI

X版本功能重构后，仅支持从DLI作业桶读取查询结果，如需使用该特性需具备以下条件：在DLI管理控制台“全局配置 > 工程配置”中完成作业桶的配置。 2024年5月起，新用户可以直接使用DLI服务的“查询结果写入桶”功能，无需开通白名单。对于2024年5月之前开通并使用DLI服务的用户，如需使用“查询结果写入桶”功能，必须提交工单申请加入白名单。

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI > 使用JDBC提交SQL作业
字符串函数 - 数据湖探索 DLI
字符串函数 - 数据湖探索 DLI

返回string中从integer1位置开始的长度为integer2的子字符串。若integer2未配置，则默认返回从integer1开始到末尾的子字符串 REPLACE(string1, string2, string3) STRING 用string3代替string1中的string2后的字符串，并返回替换后的string1字符串

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 函数 > 内置函数
为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

为什么Spark3.x的作业日志中打印找不到global_temp数据库问题描述 Spark3.x的作业日志中提示找不到global_temp数据库。根因分析 global_temp数据库是Spark3.x默认内置的数据库，是Spark的全局临时视图。通常在Spark作业执

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
CREATE TABLE AS - 数据湖探索 DLI
CREATE TABLE AS - 数据湖探索 DLI

创建包含SELECT查询结果的新表。使用CREATE TABLE创建空表。使用IF NOT EXISTS子句时，如果表已经存在则不会报错。可选WITH子句可用于设置新创建的表的属性，如表的存储位置（location）、是不是外表（external）等。示例用指定列的查询结果创建新

 帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
字符串函数 - 数据湖探索 DLI
字符串函数 - 数据湖探索 DLI

返回string中从integer1位置开始的长度为integer2的子字符串。若integer2未配置，则默认返回从integer1开始到末尾的子字符串 REPLACE(string1, string2, string3) STRING 用string3代替string1中的string2后的字符串，并返回替换后的string1字符串

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 函数 > 内置函数
创建DLI表关联OpenTSDB - 数据湖探索 DLI

在多个节点时，用分号间隔。 metric 所创建的DLI表对应的OpenTSDB中的指标名称。 tags metric对应的标签，用于归类、过滤、快速检索等操作。可以是1个到8个，以“,”分隔，包括对应metric下所有tagk的值。注意事项创建DLI表时，不需要指定time

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接OpenTSDB表
SELECT - 数据湖探索 DLI
SELECT - 数据湖探索 DLI

CUBE ( column [, ...] ) ROLLUP ( column [, ...] ) 描述从零个或多个表中检索行数据。查询stu表的内容。 SELECT id,name FROM stu; 父主题： DQL 语法

 帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DQL 语法
使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

projectId 是 - 用户访问的DLI服务使用的项目编号。 region 是 - 对接的DLI服务的Region。根据Spark应用程序的需要，修改“spark-defaults.conf”中的配置项，配置项兼容开源Spark配置项，参考开源Spark的配置项说明。使用Spark-submit提交Spark作业

 帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
创建并使用跨源链接 - 数据湖探索 DLI

本章节指导用户通过API创建增强型跨源连接。约束限制新队列第一次运行作业时，需要一定的时间，通常为6~10分钟。创建增强型跨源连接之前需要获取需要建立连接的服务对应VPC的ID和其所在子网的网络ID。获取VPC的ID接口，具体请参考《虚拟私有云API参考》。获取子网网络ID接口，具体请参考《虚拟私有云API参考》。

帮助中心 > 数据湖探索 DLI > API参考 > API快速入门
Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

其中USER_BUCKET_NAME为用户的桶名，需要进行替换为用户的使用的OBS桶名。参数的值为用户定义在CSMS通用凭证中的键key，其Key对应的value为用户的AK（Access Key Id），需要具备访问OBS对应桶的权限。 spark.hadoop.fs.obs

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南

总条数： 874

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Spark Jar作业开发指南 - 数据湖探索 DLI

数据赋权（用户或项目） - 数据湖探索 DLI

CREATE TABLE AS SELECT - 数据湖探索 DLI

get_json_object - 数据湖探索 DLI

字符串函数 - 数据湖探索 DLI

自动续费 - 数据湖探索 DLI

Hudi数据表Compaction规范 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

下载并安装JDBC驱动包 - 数据湖探索 DLI

字符串函数 - 数据湖探索 DLI

为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

CREATE TABLE AS - 数据湖探索 DLI

字符串函数 - 数据湖探索 DLI

创建DLI表关联OpenTSDB - 数据湖探索 DLI

SELECT - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

创建并使用跨源链接 - 数据湖探索 DLI

Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线