云服务器内容精选

华为云首页用户手册

Spark接口介绍

MAPREDUCE服务 MRS-Spark ThriftServer接口介绍:简介

简介 ThriftServer是Hive中的HiveServer2的另外一个实现，它底层使用了Spark SQL来处理SQL语句，从而比Hive拥有更高的性能。 ThriftServer是一个JDBC接口，用户可以通过JDBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候，会启动一个SparkSQL的应用程序，而通过JDBC连接进来的客户端共同分享这个sparkSQL应用程序的资源，也就是说不同的用户之间可以共享数据。ThriftServer启动时还会开启一个侦听器，等待JDBC客户端的连接和提交查询。所以，在配置ThriftServer的时候，至少要配置ThriftServer的主机名和端口，如果要使用Hive数据的话，还要提供Hive Metastore的URIs。 ThriftServer默认在安装节点上的10000端口起一个JDBC服务，可以通过Beeline或者JDBC客户端代码来连接它，从而执行SQL命令。如果您需要了解ThriftServer的其他信息，请参见Spark官网：http://spark.apache.org/docs/1.5.1/sql-programming-guide.html#distributed-sql-engine。

MAPREDUCE服务 MRS Spark接口介绍
MAPREDUCE服务 MRS-Spark Java API接口介绍:Spark SQL常用接口

Spark SQL常用接口 Spark SQL中重要的类有： SQLContext：是Spark SQL功能和DataFrame的主入口。 DataFrame：是一个以命名列方式组织的分布式数据集 DataFrameReader：从外部存储系统加载DataFrame的接口。 DataFrameStatFunctions：实现DataFrame的统计功能。 UserDefinedFunction：用户自定义的函数。常见的Actions方法有：表5 Spark SQL方法介绍方法说明 Row[] collect() 返回一个数组，包含DataFrame的所有列。 long count() 返回DataFrame的行数。 DataFrame describe(java.lang.String... cols) 计算统计信息，包含计数，平均值，标准差，最小值和最大值。 Row first() 返回第一行。 Row[] head(int n) 返回前n行。 void show() 用表格形式显示DataFrame的前20行。 Row[] take(int n) 返回DataFrame中的前n行。表6 基本的DataFrame Functions介绍方法说明 void explain(boolean extended) 打印出SQL语句的逻辑计划和物理计划。 void printSchema() 打印schema信息到控制台。 registerTempTable 将DataFrame注册为一张临时表，其周期和SQLContext绑定在一起。 DataFrame toDF(java.lang.String... colNames) 返回一个列重命名的DataFrame。 DataFrame sort(java.lang.String sortCol,java.lang.String... sortCols) 根据不同的列，按照升序或者降序排序。 GroupedData rollup(Column... cols) 对当前的DataFrame特定列进行多维度的回滚操作。

MAPREDUCE服务 MRS Spark接口介绍