搜索_华为云

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

具体并发设置可以参考对接DWS样例代码中的partitionColumn和numPartitions相关字段和案例描述。调整Spark作业的Executor数量，分配更多的资源用于Spark作业的运行。父主题： Spark作业运维类

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

com/dli-public/spark_notebook-aarch64:3.3.1-2.3.7.1720240419835647952528832.202404250955 创建自定义镜像以tensorflow为例，说明如何将tensorflow打包进镜像，生成安装了tensorflow的自定义

 帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
应用场景 - 数据湖探索 DLI
应用场景 - 数据湖探索 DLI

游戏公司不同部门日常通过游戏数据分析平台，分析每日新增日志获取所需指标，通过数据来辅助决策。例如：运营部门通过平台获取新增玩家、活跃玩家、留存率、流失率、付费率等，了解游戏当前状态及后续响应活动措施；投放部门通过平台获取新增玩家、活跃玩家的渠道来源，来决定下一周期重点投放哪些平台。优势高效的S

帮助中心 > 数据湖探索 DLI > 产品介绍
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

用户的PySpark程序依赖了内置算法库未提供的程序库该如何呢？其实PySpark本身就已经考虑到这一点了，那就是基于PyFiles来指定依赖，在DLI Spark作业页面中可以直接选取存放在OBS上的Python第三方程序库（支持zip、egg等）。图1 Spark作业编辑页面

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
在使用Spark2.3.x访问元数据时，DataSource语法创建avro类型的OBS表创建失败 - 数据湖探索 DLI

在使用Spark2.3.x访问元数据时，DataSource语法创建avro类型的OBS表创建失败问题描述使用Spark访问元数据时，DataSource语法创建avro类型的OBS表创建失败。图1 avro类型的OBS创建失败根因分析当前Spark2.3.x不支持创建avro类型的OBS表，Spark2

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

为什么Spark3.x的作业日志中打印找不到global_temp数据库问题描述 Spark3.x的作业日志中提示找不到global_temp数据库。根因分析 global_temp数据库是Spark3.x默认内置的数据库，是Spark的全局临时视图。通常在Spark作业执

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
pyspark样例代码 - 数据湖探索 DLI

print_function from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession session. sparkSession = SparkSession.builder

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接DWS
Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误 - 数据湖探索 DLI

Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误问题现象 Spark程序访问OBS数据时上报如下错误。 Caused by: com.obs.services.exception.ObsException:

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
pyspark样例代码 - 数据湖探索 DLI

print_function from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession sparkSession = SparkSession.builder.

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Redis
使用DLI分析电商实时业务数据 - 数据湖探索 DLI

使用DLI分析电商实时业务数据应用场景当前线上购物无疑是最火热的购物方式，而电商平台则又可以以多种方式接入，例如通过web方式访问、通过app的方式访问、通过微信小程序的方式访问等等。而电商平台则需要每天统计各平台的实时访问数据量、订单数、访问人数等等指标，从而能在显示大屏上实时展示相关

 帮助中心 > 数据湖探索 DLI > 最佳实践
Spark jar 如何读取上传文件 - 数据湖探索 DLI

Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径，即：SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的，所以不能将Driver中获取到的

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度操作场景 Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
配置SuperSet通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

Superset是一个开源的数据探索和可视化平台，支持对数据进行快速、直观的探索，同时支持创建丰富的数据可视化和交互式仪表板。 Kyuubi是一个分布式 SQL 查询引擎，它提供了标准的SQL接口，使用户能够方便地访问和分析存储在大数据平台中的数据。通过将Superset与Kyu

帮助中心 > 数据湖探索 DLI > 最佳实践 > 使用BI工具连接DLI分析数据
创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

创建Spark作业 Spark作业编辑页面支持执行Spark作业，为用户提供全托管式的Spark计算服务。在总览页面，单击Spark作业右上角的“创建作业”，或在Spark作业管理页面，单击右上角的“创建作业”，均可进入Spark作业编辑页面。进入Spark作业编辑页面，页面

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
查询Spark作业日志 - 数据湖探索 DLI

设置DLI作业桶查询Spark作业日志登录DLI管理控制台，单击“作业管理 > Spark作业”。选择待查询的Spark作业，单击操作列的“更多 > 归档日志”。系统自动跳转至DLI作业桶日志路径下。选择需要查看的日期，单击操作列的“下载”下载Spark日志到本地。图3 下载Spark作业日志

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
DLI内置依赖包 - 数据湖探索 DLI

DLI内置依赖包 DLI内置依赖包是平台默认提供的依赖包，用户打包Spark或Flink jar作业jar包时，不需要额外上传这些依赖包，以免与平台内置依赖包冲突。 Spark 3.1.1 依赖包表1 Spark 3.1.1 依赖包依赖包名称 accessors-smart-1

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作 > 管理Jar作业程序包
设置Spark作业优先级 - 数据湖探索 DLI

行才能生效。 Spark作业操作步骤在“Spark参数”中配置如下参数，其中x为优先级取值。 spark.dli.job.priority=x 登录DLI管理控制台。单击“作业管理 > Spark作业”。选择待配置的作业，单击操作列下的编辑。在“Spark参数”中配置spark

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
DWS Connector概述 - 数据湖探索 DLI

DWS Connector概述数据仓库服务（Data Warehouse Service，简称DWS）是一种基于基础架构和平台的在线数据处理数据库，为用户提供海量数据挖掘和分析服务。DLI将Flink作业从数据仓库服务（DWS）中读取数据。DWS数据库内核兼容PostgreSQ

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > DWS
Spark SQL常用配置项说明 - 数据湖探索 DLI

Spark SQL常用配置项说明本章节为您介绍DLI 批作业SQL语法的常用配置项。表1 常用配置项名称默认值描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负，则没有限制。 spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
Spark表数据维护规范 - 数据湖探索 DLI

tblproperties('hoodie.index.type'='xx'); 除Spark以外，其他引擎也可以修改Hudi表元数据，但是这种修改会导致整个Hudi表出现数据重复，甚至数据损坏；因此禁止修改上述属性。父主题： Spark on Hudi开发规范

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Spark on Hudi开发规范

总条数： 261

上一页
1
2
3
4
5
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

应用场景 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

在使用Spark2.3.x访问元数据时，DataSource语法创建avro类型的OBS表创建失败 - 数据湖探索 DLI

为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

使用DLI分析电商实时业务数据 - 数据湖探索 DLI

Spark jar 如何读取上传文件 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

配置SuperSet通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

创建Spark作业 - 数据湖探索 DLI

查询Spark作业日志 - 数据湖探索 DLI

DLI内置依赖包 - 数据湖探索 DLI

设置Spark作业优先级 - 数据湖探索 DLI

DWS Connector概述 - 数据湖探索 DLI

Spark SQL常用配置项说明 - 数据湖探索 DLI

Spark表数据维护规范 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线