Spark2x-华为云

MAPREDUCE服务 MRS-Spark使用说明

Spark使用说明 MRS 3.3.0-LTS及之后的版本中，Spark2x服务改名为Spark，服务包含的角色名也有差异，例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 Spark是一个开源的，并行数据处理框架，能够帮助用户简单、快速的开发大数据应用，对数据进行离线处理、流式处理、交互式分析等。相比于Hadoop，Spark拥有明显的性能优势。父主题：使用Spark/Spark2x

MAPREDUCE服务 MRS 使用Spark/Spark2x

MAPREDUCE服务 MRS-为什么从Yarn Web UI页面无法跳转到Spark Web UI界面:回答

回答打开 FusionInsight Manager页面，看到Yarn服务的业务IP地址为192网段。从Yarn的日志看到，Yarn读取的Spark Web UI地址为http://10.120.169.53:23011，是10网段的IP地址。由于192网段的IP和10网段的IP不能互通，所以导致访问Spark Web UI界面失败。修改方案：登录10.120.169.53客户端机器，修改/etc/hosts文件，将10.120.169.53更改为相对应的192网段的IP地址。再重新运行Spark应用，这时就可以打开Spark Web UI界面。

MAPREDUCE服务 MRS Spark2x常见问题

MAPREDUCE服务 MRS-Spark客户端使用实践:场景说明

场景说明假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下要求：统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60 log2.txt：周日网民停留日志 LiuYang,female,20 YuanJing,male,10 CaiXuyu,female,50 FangBo,female,50 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 CaiXuyu,female,50 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 FangBo,female,50 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60

MAPREDUCE服务 MRS 使用Spark2x（MRS 3.x及之后版本）

MAPREDUCE服务 MRS-Spark2x导出带有相同字段名的表，结果导出失败:问题

问题在Spark2x的spark-shell上执行如下语句失败： val acctId = List(("49562", "Amal", "Derry"), ("00000", "Fred", "Xanadu")) val rddLeft = sc.makeRDD(acctId) val dfLeft = rddLeft.toDF("Id", "Name", "City") //dfLeft.show val acctCustId = List(("Amal", "49562", "CO"), ("Dave", "99999", "ZZ")) val rddRight = sc.makeRDD(acctCustId) val dfRight = rddRight.toDF("Name", "CustId", "State") //dfRight.show val dfJoin = dfLeft.join(dfRight, dfLeft("Id") === dfRight("CustId"), "outer") dfJoin.show dfJoin.repartition(1).write.format("com.databricks.spark.csv").option("delimiter", "\t").option("header", "true").option("treatEmptyValuesAsNulls", "true").option("nullValue", "").save("/tmp/outputDir")

MAPREDUCE服务 MRS Spark2x常见问题

MAPREDUCE服务 MRS-Spark2x开源新特性说明

Spark2x开源新特性说明 Spark2x版本相对于Spark 1.5版本新增了一些开源特性。具体特性或相关概念如下： DataSet，详见SparkSQL和DataSet原理。 Spark SQL Native DDL/DML，详见SparkSQL和DataSet原理。 SparkSession，详见SparkSession原理。 Structured Streaming，详见Structured Streaming原理。小文件优化。聚合算法优化。 Datasource表优化。合并CBO优化。父主题： Spark2x开源增强特性

MAPREDUCE服务 MRS Spark2x开源增强特性

MAPREDUCE服务 MRS-Spark2x多租户:实现方案

实现方案多租户模式的HA方案原理如图1所示。图1 Spark JD BCS erver多租户 ProxyServer在启动时，向ZooKeeper注册自身消息，在指定目录中写入节点信息，节点信息包含了该实例对应的IP，端口，版本号和序列号等信息（多节点信息之间以逗号隔开）。多租户模式下，MRS页面上的JDB CS erver实例是指ProxyServer（JDBCServer代理）。示例如下： serverUri=192.168.169.84:22550 ;version=8.1.0.1;sequence=0000001244,serverUri=192.168.195.232:22550 ;version=8.1.0.1;sequence=0000001242,serverUri=192.168.81.37:22550 ;version=8.1.0.1;sequence=0000001243, 客户端连接ProxyServer时，需要指定Namespace，即访问ZooKeeper哪个目录下的ProxyServer实例。在连接的时候，会根据当前租户名的Hash值与Zookeeper下的Namespace实例个数取模获取连接的实例，详细URL参见URL连接介绍。客户端成功连接ProxyServer服务，ProxyServer服务首先确认是否有该租户的JDBCServer存在，如果有，直接将Beeline连上真正的JDBCServer；如果没有，则以YARN-Cluster模式启动一个新的JDBCServer。JDBCServer启动成功后，ProxyServer会获取JDBCServer的地址，并将Beeline连上JDBCServer。客户端发送SQL语句给ProxyServer，ProxyServer将语句转交给真正连上的JDBCServer处理。最后JDBCServer服务将结果返回给ProxyServer，ProxyServer再将结果返回给客户端。在HA方案中，每个ProxyServer服务（即实例）都是独立且等同的，当其中一个实例在升级或者业务中断时，其他的实例也能接受客户端的连接请求。

MAPREDUCE服务 MRS Spark2x HA方案介绍

MAPREDUCE服务 MRS-Spark2x多租户:背景介绍

背景介绍 JDBCServer多主实例方案中，JDBCServer的实现使用YARN-Client模式，但YARN资源队列只有一个，为了解决这种资源局限的问题，引入了多租户模式。多租户模式是将JDBCServer和租户绑定，每一个租户对应一个或多个JDBCServer，而一个JDBCServer只给一个租户提供服务。不同的租户可以配置不同的YARN队列，从而达到资源隔离，且JDBCServer根据需求动态启动，可避免浪费资源。

MAPREDUCE服务 MRS Spark2x HA方案介绍

MAPREDUCE服务 MRS-Spark应用开发简介:Spark Streaming常用概念

Spark Streaming常用概念 Dstream DStream(又称Discretized Stream)是Spark Streaming提供的抽象概念。 DStream表示一个连续的数据流，是从数据源获取或者通过输入流转换生成的数据流。从本质上说，一个DStream表示一系列连续的RDD。RDD是一个只读的、可分区的分布式数据集。 DStream中的每个RDD包含了一个区间的数据。如图4所示。图4 DStream与RDD关系应用到DStream上的所有算子会被转译成下层RDD的算子操作，如图5所示。这些下层的RDD转换会通过Spark引擎进行计算。DStream算子隐藏大部分的操作细节，并且提供了方便的High-level API给开发者使用。图5 DStream算子转译