搜索_华为云

Spark作业开发类 - 数据湖探索 DLI

Spark作业开发类 Spark作业使用咨询 Spark如何将数据写入到DLI表中通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类
查看表统计信息 - 数据湖探索 DLI

查看表统计信息功能描述查看表统计信息。返回所有列的列名和列数据类型。语法格式 1 DESCRIBE [EXTENDED|FORMATTED] [db_name.]table_name; 关键字 EXTENDED：显示表的所有元数据，通常只在debug时用到。 FORMAT

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 查看表
pyspark样例代码 - 数据湖探索 DLI

DoubleType from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession session. sparkSession = SparkSession.builder

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
pyspark样例代码 - 数据湖探索 DLI

DoubleType from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession session. sparkSession = SparkSession.builder

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接OpenTSDB
pyspark样例代码 - 数据湖探索 DLI

创建Spark作业完成后，在控制台单击右上角“执行”提交作业，页面显示“批处理作业提交成功”说明Spark作业提交成功，可以在Spark作业管理页面查看提交的作业的状态和日志。创建Spark作业时选择的“所属队列”为创建跨源连接时所绑定的队列。如果选择spark版本为2.3

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接RDS
配置SuperSet通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

Superset是一个开源的数据探索和可视化平台，支持对数据进行快速、直观的探索，同时支持创建丰富的数据可视化和交互式仪表板。 Kyuubi是一个分布式 SQL 查询引擎，它提供了标准的SQL接口，使用户能够方便地访问和分析存储在大数据平台中的数据。通过将Superset与Kyu

帮助中心 > 数据湖探索 DLI > 最佳实践 > 使用BI工具连接DLI分析数据
创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

创建Spark作业 Spark作业编辑页面支持执行Spark作业，为用户提供全托管式的Spark计算服务。在总览页面，单击Spark作业右上角的“创建作业”，或在Spark作业管理页面，单击右上角的“创建作业”，均可进入Spark作业编辑页面。进入Spark作业编辑页面，页面

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度操作场景 Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
管理Spark作业 - 数据湖探索 DLI
管理Spark作业 - 数据湖探索 DLI

管理Spark作业查看Spark作业的基本信息在总览页面单击“Spark作业”简介，或在左侧导航栏单击“作业管理”>“Spark作业”，可进入Spark作业管理页面。Spark作业管理页面显示所有的Spark作业，作业数量较多时，系统分页显示，您可以查看任何状态下的作业。表1

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 - 数据湖探索 DLI

Spark读取OBS文件数据，详见使用Spark Jar作业读取和查询OBS数据。配置Spark作业：配置Spark作业访问OBS中存储的数据。提交Spark作业：完成作业编写后，提交并执行作业。父主题： Spark作业运维类

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误 - 数据湖探索 DLI

Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误问题现象 Spark程序访问OBS数据时上报如下错误。 Caused by: com.obs.services.exception.ObsException:

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
pyspark样例代码 - 数据湖探索 DLI

print_function from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession session. sparkSession = SparkSession.builder

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接DWS
pyspark样例代码 - 数据湖探索 DLI

print_function from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession session. sparkSession = SparkSession.builder

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接CSS
查询Spark作业日志 - 数据湖探索 DLI

设置DLI作业桶查询Spark作业日志登录DLI管理控制台，单击“作业管理 > Spark作业”。选择待查询的Spark作业，单击操作列的“更多 > 归档日志”。系统自动跳转至DLI作业桶日志路径下。选择需要查看的日期，单击操作列的“下载”下载Spark日志到本地。图3 下载Spark作业日志

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

具体并发设置可以参考对接DWS样例代码中的partitionColumn和numPartitions相关字段和案例描述。调整Spark作业的Executor数量，分配更多的资源用于Spark作业的运行。父主题： Spark作业运维类

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
pyspark样例代码 - 数据湖探索 DLI

print_function from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession sparkSession = SparkSession.builder.

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Redis
pyspark样例代码 - 数据湖探索 DLI

from pyspark.sql.types import StructType, StructField, IntegerType, StringType from pyspark.sql import SparkSession 创建session 1 sparkSession

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

为什么Spark3.x的作业日志中打印找不到global_temp数据库问题描述 Spark3.x的作业日志中提示找不到global_temp数据库。根因分析 global_temp数据库是Spark3.x默认内置的数据库，是Spark的全局临时视图。通常在Spark作业执

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
数据湖探索简介 - 数据湖探索 DLI

湖探索开发指南》。 DLI核心引擎：Spark+Flink+HetuEngine Spark是用于大规模数据处理的统一分析引擎，聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造，不仅兼容Apache Spark生态和接口，性能较开源提升了2.5倍，在小时级即可实现EB级数据查询分析。

帮助中心 > 数据湖探索 DLI > 产品介绍
设置Spark作业优先级 - 数据湖探索 DLI

行才能生效。 Spark作业操作步骤在“Spark参数”中配置如下参数，其中x为优先级取值。 spark.dli.job.priority=x 登录DLI管理控制台。单击“作业管理 > Spark作业”。选择待配置的作业，单击操作列下的编辑。在“Spark参数”中配置spark

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业

总条数： 651

上一页
1
2
3
4
5
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Spark作业开发类 - 数据湖探索 DLI

查看表统计信息 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

配置SuperSet通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

创建Spark作业 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

管理Spark作业 - 数据湖探索 DLI

使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 - 数据湖探索 DLI

Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

查询Spark作业日志 - 数据湖探索 DLI

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

数据湖探索简介 - 数据湖探索 DLI

设置Spark作业优先级 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线