搜索_华为云

使用Spark SQL作业分析OBS数据 - 数据湖探索 DLI

查询，生成了csv数据文件，文件内容为insert插入的数据内容。图4 查询结果指定的OBS数据目录包含数据文件。在OBS桶“dli-test-021”根目录下创建数据文件目录“data2”。创建如下内容的测试数据文件“test.csv”，并上传文件到“obs://dli-test-021/data2”目录下。

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
DESCRIBE DATABASE| SCHEMA - 数据湖探索 DLI

schema_name 描述 DATABASE和SCHEMA在此处是等价的，可互换的，它们有这相同的含义。该语法用于显示SCHEMA的名称、注释、还有它在文件系统上的根路径。可选项EXTENDED可以用来显示SCHEMA的数据库属性。示例 CREATE SCHEMA web; DESCRIBE

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > 辅助命令语法
java样例代码 - 数据湖探索 DLI
java样例代码 - 数据湖探索 DLI

请参考CSS安全集群配置，准备工作的主要目的是为了生成keystore.jks文件和truststore.jks文件，并将其上传至OBS桶中。开发说明-https off 如果没有开启https访问的话，不需要去生成keystore.jks和truststore.jks文件的，只需要设置好ssl访问和账号密码参数即可。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接CSS
CSS安全集群配置 - 数据湖探索 DLI

此处设置keystore.jks文件的位置以及进入这个文件的密钥。在准备工作中生成的keystore.jks文件需要先放到OBS桶中，然后填入ak和sk以及jks文件的具体位置。最后在“es.net.ssl.keystore.pass”填入进入文件的密钥。 .option("es

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接CSS
创建Kerberos跨源认证 - 数据湖探索 DLI

选择“系统 > 权限 > 用户”。单击“更多 > 下载认证凭据”，保存后解压得到用户的keytab文件与krb5.conf文件。上传认证凭证到OBS桶。关于如何创建OBS桶并上传数据，请参考《对象存储服务快速入门》。创建跨源认证。登录DLI管理控制台。选择“跨源管理 >

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 使用DLI的跨源认证管理数据源访问凭证
java样例代码 - 数据湖探索 DLI
java样例代码 - 数据湖探索 DLI

sql("select * from opentsdb_new_test").show(); 插入数据后：提交Spark作业将写好的代码文件生成jar包，上传至OBS桶中。在Spark作业编辑器中选择对应的Module模块并执行Spark作业。如果选择spark版本为2.3.2（即将下线）或2

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接OpenTSDB
SHOW_HOODIE_PROPERTIES - 数据湖探索 DLI

SHOW_HOODIE_PROPERTIES 命令功能查看指定hudi表的hoodie.properties文件中的配置。命令格式 call show_hoodie_properties(table => '[table_name]'); 参数描述表1 参数描述参数描述

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

添加Python包后，找不到指定的Python环境添加Python3包后，找不到指定的Python环境。可以通过在conf文件中，设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3，指定计算集群环境为Python3环境。目前，新

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Hudi查询类型 - 数据湖探索 DLI
Hudi查询类型 - 数据湖探索 DLI

快照查询（Snapshot Queries）可以读到最新的commit/compaction产生的快照。对于MOR表，还会在查询中合并最新的delta log文件的内容，使读取的数据近实时。增量查询增量查询（Incremental Queries）只会查询到给定的commit/compaction之后新增的数据。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述
SHOW_INVALID_PARQUET - 数据湖探索 DLI

SHOW_INVALID_PARQUET 命令功能查看执行路径下损坏的parquet文件。命令格式 call show_invalid_parquet(path => 'path') 参数描述表1 参数描述参数描述是否必填 path 需要查询的FS路径是示例 call

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
使用Livy提交Spark Jar作业 - 数据湖探索 DLI

template spark-blacklist.conf touch spark-defaults.conf 修改DLI Livy工具配置文件上传指定的DLI Livy工具jar资源包到OBS桶路径下。登录OBS控制台，在指定的OBS桶下创建一个存放Livy工具jar包的资源目录

 帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
创建并提交Spark作业 - 数据湖探索 DLI

新队列第一次运行作业时，需要一定的时间，通常为6~10分钟。涉及接口创建弹性资源池：创建弹性资源池。创建队列：在弹性资源池中添加队列。上传分组资源：上传Spark作业所需的资源包。查询组内资源包：确认上传的资源包是否正确。创建批处理作业：创建并提交Spark批处理作业。查询批处理作业状态：查看批处理作业状态。

帮助中心 > 数据湖探索 DLI > API参考 > API快速入门
创建并提交Flink作业 - 数据湖探索 DLI

常为6~10分钟。涉及接口创建弹性资源池：创建弹性资源池。创建队列：在弹性资源池中添加队列。上传分组资源：上传Flink自定义作业所需的资源包。查询组内资源包：确认上传的资源包是否正确。创建Flink自定义作业：创建Flink自定义作业。批量运行作业：运行Flink自定义作业。

帮助中心 > 数据湖探索 DLI > API参考 > API快速入门
使用Flink Jar写入数据到OBS开发指南 - 数据湖探索 DLI

已安装和配置IntelliJ IDEA等开发工具以及安装JDK和Maven。 Maven工程的pom.xml文件配置请参考JAVA样例代码（Flink 1.12）中“pom文件配置”说明。确保本地编译环境可以正常访问公网。约束与限制需要在DLI控制台下“全局配置 > 服务授权”开启Tenant

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南
CLEAN - 数据湖探索 DLI
CLEAN - 数据湖探索 DLI

CLEAN 命令功能用于根据配置对Timeline上的Instant进行clean，删除老旧的历史版本文件，以减少hudi表的数据存储及读写压力。命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
关联OBS桶中嵌套的JSON格式数据如何创建表 - 数据湖探索 DLI

'obs://....') using json：指定使用 JSON 格式。 options：用于设置表的选项。 path：指定OBS中JSON文件的路径。父主题： SQL作业开发类

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
pyspark样例代码 - 数据湖探索 DLI

sparkSession.sql("select * from dli_to_dws").show() 操作结果提交Spark作业将写好的python代码文件上传至OBS桶中。在Spark作业编辑器中选择对应的Module模块并执行Spark作业。如果选择spark版本为2.3.2（即将下线）或2

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接DWS
创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

应jar包文件的OBS路径，格式为：obs://桶名/文件夹路径名/包名。依赖python文件（--py-files）运行spark作业依赖的py-files。可以输入Python文件名称，也可以输入Python文件对应的OBS路径，格式为：obs://桶名/文件夹路径名/文件名。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
pyspark样例代码 - 数据湖探索 DLI

"city,location")\ .load() jdbdDF.show() 操作结果提交Spark作业将写好的python代码文件上传至OBS桶中。在Spark作业编辑器中选择对应的Module模块并执行Spark作业。如果选择spark版本为2.3.2（即将下线）或2

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接OpenTSDB
java样例代码 - 数据湖探索 DLI
java样例代码 - 数据湖探索 DLI

在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。代码实现导入依赖涉及到的mvn依赖库 1 2 3 4 5 <dependency>

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接RDS

总条数： 617

上一页
1
...
4
5
6
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Spark SQL作业分析OBS数据 - 数据湖探索 DLI

DESCRIBE DATABASE| SCHEMA - 数据湖探索 DLI

java样例代码 - 数据湖探索 DLI

CSS安全集群配置 - 数据湖探索 DLI

创建Kerberos跨源认证 - 数据湖探索 DLI

java样例代码 - 数据湖探索 DLI

SHOW_HOODIE_PROPERTIES - 数据湖探索 DLI

添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

Hudi查询类型 - 数据湖探索 DLI

SHOW_INVALID_PARQUET - 数据湖探索 DLI

使用Livy提交Spark Jar作业 - 数据湖探索 DLI

创建并提交Spark作业 - 数据湖探索 DLI

创建并提交Flink作业 - 数据湖探索 DLI

使用Flink Jar写入数据到OBS开发指南 - 数据湖探索 DLI

CLEAN - 数据湖探索 DLI

关联OBS桶中嵌套的JSON格式数据如何创建表 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

创建Spark作业 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

java样例代码 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线