Spark应用开发概述-华为云

MAPREDUCE服务 MRS-Spark应用开发常用概念:Spark SQL常用概念

Spark SQL常用概念 DataFrame DataFrame是一个由多个列组成的结构化的分布式数据集合，等同于关系数据库中的一张表，或者是R/Python中的Data Frame。DataFrame是Spark SQL中的最基本的概念，可以通过多种方式创建，例如结构化的数据集、Hive表、外部数据库或者RDD。 Spark SQL的程序入口是SQLContext类（或其子类），创建SQLContext时需要一个SparkContext对象作为其构造参数。SQLContext其中一个子类是HiveContext，相较于其父类，HiveContext添加了HiveQL的parser、UDF以及读取存量Hive数据的功能等。但注意，HiveContext并不依赖运行时的Hive，只是依赖Hive的类库。由SQLContext及其子类可以方便的创建SparkSQL中的基本数据集DataFrame，DataFrame向上提供多种多样的编程接口，向下兼容多种不同的数据源，例如Parquet、JSON、Hive数据、Database、HBase等，这些数据源都可以使用统一的语法来读取。

MAPREDUCE服务 MRS Spark应用开发概述

MAPREDUCE服务 MRS-Spark应用开发常用概念:Spark Streaming常用概念

Spark Streaming常用概念 Dstream DStream(又称Discretized Stream)是Spark Streaming提供的抽象概念。 DStream表示一个连续的数据流，是从数据源获取或者通过输入流转换生成的数据流。从本质上说，一个DStream表示一系列连续的RDD。RDD一个只读的、可分区的分布式数据集。 DStream中的每个RDD包含了一个区间的数据。如图4所示。图4 DStream与RDD关系应用到DStream上的所有算子会被转译成下层RDD的算子操作，如图5所示。这些下层的RDD转换会通过Spark引擎进行计算。DStream算子隐藏大部分的操作细节，并且提供了方便的High-level API给开发者使用。图5 DStream算子转译

MAPREDUCE服务 MRS Spark应用开发概述

MAPREDUCE服务 MRS-Spark应用开发流程介绍

Spark应用开发流程介绍 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件，其应用开发流程相同。开发流程中各阶段的说明如图1和表1所示。图1 Spark应用程序开发流程表1 Spark应用开发的流程说明阶段说明参考文档了解基本概念在开始开发应用前，需要了解Spark的基本概念，根据实际场景选择需要了解的概念，分为Spark Core基本概念、Spark SQL基本概念和Spark Streaming基本概念。 Spark应用开发常用概念准备开发环境 Spark的应用程序支持使用Scala、Java、Python三种语言进行开发。推荐使用IDEA工具，请根据指导完成不同语言的开发环境配置。请参考准备Spark应用Java开发环境至准备Spark应用Python开发环境章节准备运行环境 Spark的运行环境即Spark客户端，请根据指导完成客户端的安装和配置。准备Spark应用运行环境获取并导入样例工程或者新建工程 Spark提供了不同场景下的样例程序，您可以导入样例工程进行程序学习。或者您可以根据指导，新建一个Spark工程。导入并配置Spark样例工程根据场景开发工程提供了Scala、Java、Python三种不同语言的样例工程，还提供了Streaming、SQL、JDBC客户端程序以及Spark on HBase四种不同场景的样例工程。帮助用户快速了解Spark各部件的编程接口。请参考场景说明至Scala样例代码章节编译并运行程序指导用户将开发好的程序编译并提交运行。编包并运行Spark应用查看程序运行结果程序运行结果会写在用户指定的路径下。用户还可以通过UI查看应用运行情况。查看Spark应用调测结果调优程序您可以根据程序运行情况，对程序进行调优，使其性能满足业务场景诉求。调优完成后，请重新进行编译和运行请参考数据序列化至Spark CBO调优章节父主题： Spark应用开发概述

MAPREDUCE服务 MRS Spark应用开发概述

MAPREDUCE服务 MRS-Spark应用开发简介:Spark开发接口简介

Spark开发接口简介 Spark支持使用Scala、Java和Python语言进行程序开发，由于Spark本身是由Scala语言开发出来的，且Scala语言具有简洁易懂的特性，推荐用户使用Scala语言进行Spark应用程序开发。按不同的语言分，Spark的API接口如表1所示。表1 Spark API接口接口说明 Scala API 提供Scala语言的API。由于Scala语言的简洁易懂，推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API。 Python API 提供Python语言的API。按不同的模块分，Spark Core和Spark Streaming使用上表中的API接口进行程序开发。而SparkSQL模块，支持CLI或者ThriftServer两种方式访问。其中ThriftServer的连接方式也有Beeline和JDBC客户端代码两种。 spark-sql脚本、spark-shell脚本和spark-submit脚本（运行的应用中带SQL操作），不支持使用proxy user参数去提交任务。

MAPREDUCE服务 MRS Spark应用开发概述

MAPREDUCE服务 MRS-Spark应用开发简介:Spark简介

Spark简介 Spark是分布式批处理框架，提供分析挖掘与迭代式内存计算能力，支持多种语言（Scala/Java/Python）的应用开发。适用以下场景：数据处理（Data Processing）：可以用来快速处理数据，兼具容错性和可扩展性。迭代计算（Iterative Computation）：支持迭代计算，有效应对多步的数据处理逻辑。数据挖掘（Data Mining）：在海量数据基础上进行复杂的挖掘分析，可支持各种数据挖掘和机器学习算法。流式处理（Streaming Processing）：支持秒级延迟的流式处理，可支持多种外部数据源。查询分析（Query Analysis）：支持标准SQL查询分析，同时提供DSL（DataFrame），并支持多种外部输入。 Apache Spark部件架构如图1所示。本文档重点介绍Spark、Spark SQL和Spark Streaming应用开发指导。MLlib和GraghX的详细指导请参见Spark官方网站：http://spark.apache.org/docs/2.2.2/。图1 Spark架构

MAPREDUCE服务 MRS Spark应用开发概述

云服务器内容精选

Spark应用开发概述

7*24

备案

专业服务

退订

建议反馈

售前咨询热线