搜索_华为云

使用Spark作业访问DLI元数据 - 数据湖探索 DLI

import org.apache.spark.sql.SparkSession; 创建SparkSession会话。创建SparkSession会话时需要指定Spark参数："spark.sql.session.state.builder"、"spark.sql.catalog.class"和"spark

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
有访问OBS对应的桶的权限，但是Spark作业访问时报错 verifyBucketExists on XXXX: status [403] - 数据湖探索 DLI

有访问OBS对应的桶的权限，但是Spark作业访问时报错 verifyBucketExists on XXXX: status [403] 该报错信息可能是由于OBS桶被设置为了DLI日志桶，而日志桶不能用于DLI的其他业务功能。您可以按以下操作步骤进行查询：检查该OBS桶是否被设置为了DLI日志桶。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
数据湖探索简介 - 数据湖探索 DLI

湖探索开发指南》。 DLI核心引擎：Spark+Flink+HetuEngine Spark是用于大规模数据处理的统一分析引擎，聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造，不仅兼容Apache Spark生态和接口，性能较开源提升了2.5倍，在小时级即可实现EB级数据查询分析。

帮助中心 > 数据湖探索 DLI > 产品介绍
SparkSQL建表参数规范 - 数据湖探索 DLI

SparkSQL建表参数规范规则建表必须指定primaryKey和preCombineField。 Hudi表提供了数据更新的能力和幂等写入的能力，该能力要求数据记录必须设置主键用来识别重复数据和更新操作。不指定主键会导致表丢失数据更新能力，不指定preCombineField会导致主键重复。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Spark on Hudi开发规范
Spark 2.4.x与Spark 3.3.x版本差异对比 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本差异对比 Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比 Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 DLI datasourceV1表和datasourceV2表父主题：版本支持公告

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
Spark表数据维护规范 - 数据湖探索 DLI

tblproperties('hoodie.index.type'='xx'); 除Spark以外，其他引擎也可以修改Hudi表元数据，但是这种修改会导致整个Hudi表出现数据重复，甚至数据损坏；因此禁止修改上述属性。父主题： Spark on Hudi开发规范

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Spark on Hudi开发规范
在使用Spark2.3.x访问元数据时，DataSource语法创建avro类型的OBS表创建失败 - 数据湖探索 DLI

在使用Spark2.3.x访问元数据时，DataSource语法创建avro类型的OBS表创建失败问题描述使用Spark访问元数据时，DataSource语法创建avro类型的OBS表创建失败。图1 avro类型的OBS创建失败根因分析当前Spark2.3.x不支持创建avro类型的OBS表，Spark2

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
使用Spark作业跨源访问数据源 - 数据湖探索 DLI

使用Spark作业跨源访问数据源概述对接CSS 对接DWS 对接HBase 对接OpenTSDB 对接RDS 对接Redis 对接Mongo 父主题： Spark Jar作业开发指南

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
使用Spark Jar作业读取和查询OBS数据 - 数据湖探索 DLI

import static org.apache.spark.sql.functions.col; 通过当前账号的AK和SK创建SparkSession会话spark 。 SparkSession spark = SparkSession .builder()

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

DLI中的Spark组件与MRS中的Spark组件有什么区别？ DLI和MRS都支持Spark组件，但在服务模式、接口方式、应用场景和性能特性上存在一些差异。 DLI服务的Spark组件是全托管式服务，用户对Spark组件不感知，仅仅可以使用该服务，且接口为封装式接口。 DLI的

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

对接的DLI服务的Region。根据Spark应用程序的需要，修改“spark-defaults.conf”中的配置项，配置项兼容开源Spark配置项，参考开源Spark的配置项说明。使用Spark-submit提交Spark作业进入工具文件bin目录，执行spark-submit命令，并携带相关参数。

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
Spark作业相关 - 数据湖探索 DLI
Spark作业相关 - 数据湖探索 DLI

batchJob.asyncSubmit(); SparkJobStatus sparkJobStatus=batchJob.getStatus(); System.out.println(sparkJobStatus); } 查询批处理作业日志 DL

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK
将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

aegg包所在的OBS路径。分组设置和分组名称根据情况选择。单击“确定”完成程序包上传。在报错的Spark作业编辑页面，“依赖python文件”处选择已上传的egg程序包，重新运行Spark作业。 pyspark作业对接MySQL，需要创建跨源链接，打通DLI和RDS之间的网络。通过管理控制

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

环境。可以通过在conf文件中，设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3，指定计算集群环境为Python3环境。目前，新建集群环境均已默认为Python3环境。父主题： Spark作业开发类

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
对接DWS - 数据湖探索 DLI
对接DWS - 数据湖探索 DLI

对接DWS scala样例代码 pyspark样例代码 java样例代码父主题：使用Spark作业跨源访问数据源

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源
概述 - 数据湖探索 DLI
概述 - 数据湖探索 DLI

概述 DLI支持原生Spark的DataSource能力，并在其基础上进行了扩展，能够通过SQL语句或者Spark作业访问其他数据存储服务并导入、查询、分析处理其中的数据，目前支持的DLI跨源访问服务有：表格存储服务CloudTable，云搜索服务CSS，分布式缓存服务DCS，文

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源
Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

单击“创建凭据”。配置凭据基本信息 DLI Spark jar作业编辑界面设置作业参数。 Spark参数： spark.hadoop.fs.obs.bucket.USER_BUCKET_NAME.dew.access.key= USER_AK_CSMS_KEY spark.hadoop.fs.obs

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
对接Redis - 数据湖探索 DLI
对接Redis - 数据湖探索 DLI

对接Redis scala样例代码 pyspark样例代码 java样例代码故障处理父主题：使用Spark作业跨源访问数据源

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源
Spark作业相类 - 数据湖探索 DLI
Spark作业相类 - 数据湖探索 DLI

Spark作业相类 Spark作业开发类 Spark作业运维类

 帮助中心 > 数据湖探索 DLI > 常见问题
通用队列操作OBS表如何设置AK/SK - 数据湖探索 DLI

本操作介绍获取Flink作业委托临时凭证的操作方法。 Spark作业场景 Spark Jar 使用DEW获取访问凭证读写OBS 访问OBS的AKSK为例介绍Spark Jar使用DEW获取访问凭证读写OBS的操作指导。用户获取Spark作业委托临时凭证本操作介绍获取Spark Jar作业委托临时凭证的操作方法。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类

总条数： 654

上一页
1
2
3
4
5
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Spark作业访问DLI元数据 - 数据湖探索 DLI

有访问OBS对应的桶的权限，但是Spark作业访问时报错 verifyBucketExists on XXXX: status [403] - 数据湖探索 DLI

数据湖探索简介 - 数据湖探索 DLI

SparkSQL建表参数规范 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本差异对比 - 数据湖探索 DLI

Spark表数据维护规范 - 数据湖探索 DLI

在使用Spark2.3.x访问元数据时，DataSource语法创建avro类型的OBS表创建失败 - 数据湖探索 DLI

使用Spark作业跨源访问数据源 - 数据湖探索 DLI

使用Spark Jar作业读取和查询OBS数据 - 数据湖探索 DLI

DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

Spark作业相关 - 数据湖探索 DLI

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

对接DWS - 数据湖探索 DLI

概述 - 数据湖探索 DLI

Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

对接Redis - 数据湖探索 DLI

Spark作业相类 - 数据湖探索 DLI

通用队列操作OBS表如何设置AK/SK - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线